生成器
生成器跟迭代器有点类似,是个数据生成器,目的就是为了减少内存的使用。要使用一个数据就生成一个数据,而不是一下子直接把数据加载到内存中,比如,如果有一个4G的文件要处理,直接加载到内存是不现实的。
先谈一下列表生成式:
版本1:
[x * x for x in range(1, 11)]
版本2:
L = []
for x in range(1, 11):
L.append(x * x)
版本1 会比版本2 快很多:
原因:版本1采用列表生成器,可以知道列表的长度,就可以预先在内存中分配好内存,而版本2,使用append,可能本来分配的内存不够,所以,append之后就需要重新复制,拷贝,会比较浪费时间。
通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator。
列表生成式和生成器的区别:
L = [x*x for x in range(10)]
print L
g = (x*x for x in range(10))
for item in g:
print item
经验:生成器只是在解决迭代的问题上会起作用,你把函数定义为生成器,使用yield关键词,在生成器函数中要给初始条件,然后定义迭代的规则。
生成器的工作原理:
def fib(max):
n, a, b = 0, 0, 1
while n < max:
yield b
a, b = b, a + b
n = n + 1
return
f = fib(6)
print next(f)
print next(f)
最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。最后一次调用next()就会抛出异常 StopIteration
不用for循环,而是用next()模拟生成器的运行机理:
def fib(max):
n, a, b = 0, 0, 1
while n < max:
yield b
a, b = b, a + b
n = n + 1
return
# call generator manually:
g = fib(5)
while 1:
try:
x = next(g)
print('g:', x)
except StopIteration as e:
print('Generator return value:', e.value)
break
总结:
generator是非常强大的工具,在Python中,可以简单地把列表生成式改成generator,也可以通过函数实现复杂逻辑的generator。
要理解generator的工作原理,它是在for
循环的过程中不断计算出下一个元素,并在适当的条件结束for
循环。对于函数改成的generator来说,遇到return
语句或者执行到函数体最后一行语句,就是结束generator的指令,for
循环随之结束。