在使用pytorch训练模型,经常需要加载大量图片数据,因此pytorch提供了好用的数据加载工具Dataloader。
为了实现小批量循环读取大型数据集,在Dataloader类具体实现中,使用了迭代器和生成器。
这一应用场景正是python中迭代器模式的意义所在,因此本文对Dataloader中代码进行解读,可以更好的理解python中迭代器和生成器的概念。
本文的内容主要有:
解释python中的迭代器和生成器概念
解读pytorch中Dataloader代码,如何使用迭代器和生成器实现数据加载
python迭代基础
python中围绕着迭代有以下概念:
可迭代对象 iterables
迭代器 iterator
生成器 generator
这三个概念互相关联,并不是孤立的。在可迭代对象的基础上发展了迭代器,在迭代器的基础上又发展了生成器。
学习这些概念的名词解释没有多大意义。编程中很多的抽象概念都是为了更好的实现某些功能,才去人为创造的协议和模式。
因此,要理解它们,需要探究概念背后的逻辑,为什么这样设计?要解决的真正问题是什么?在哪些场景下应用是最好的?
迭代模式首先要解决的基础问题是,需要按一定顺序获取集合内部数据,比如循环某个list。
当数据很小时,不会有问题。但当读取大量数据时,一次性读取会超出内存限制,因此想出以下方法:
把大的数据分成几个小块,分批处理
惰性的取值方式,按需取值
循环读数据可分为下面三种应用场景,对应着容器(可迭代对象),迭代器和生成器:
for x in container: 为了遍历python内部序列容器(如list), 这些类型内部实现了__getitem__() 方法,可以从0开始按顺序遍历序列容器中的元素。
for x in iterator: 为了循环用户自定义的迭代器,需要实现__iter__和__next__方法,__iter__是迭代协议,具体每次迭代的执行逻辑在 __next__或next方法里
for x in generator: 为了节省循环的内存和加速,使用生成器来实现惰性加载,在迭代器的基础上加入了yield语句,最简单的例子是 range(5)
代码示例:
# 普通循环 for x in list
numbers = [1, 2, 3,]
for n in numbers:
print(n) # 1,2,3
# for循环实际干的事情
# iter输入一个可迭代对象list,返回迭代器
# next方法取数据
my_iterator = iter(numbers)
next(my_iterator) # 1
next(my_iterator) # 2
next(my_iterator) # 3
next(my_iterator) # StopIteration exception
# 迭代器循环 for x in iterator
for i,n in enumerate(numbers):
print(i,n)