一、生成器
通过列表生成式,可以直接创建一个列表,但受到内存限制,列表的容量肯定是有限的。
>>> [x*2 for x in range(10)] # 列表生成式
[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间,在python中,这种一边循环一边计算的机制,称为生成器:generator
1.创建generator的第一种方法:把一个列表生成式的[]改成()
生成器只有在调用时才会生成相应的数据,并且只记录当前位置,除了可以进行for循环,还可以被next()方法不断调用并返回下一个值,直到最后抛出StopIteration错误,表示无法继续返回下一个值了。
>>> (x*2 for x in range(5))
<generator object <genexpr> at 0x0000000004D863B8>
>>> g = (x*2 for x in range(5))
>>> for i in g:
print(i)
0
2
4
6
8
2.如果推算算法比较复杂,用类似列表生成式的for循环无法实现的时候,还可以用函数来实现。
比如,著名的斐波拉契数列(fibonacci),除第一个和第二个数之外,任意一个数都由前两个数相加得到。
def fib(max):
n, a, b = 0, 0, 1
while n < max:
# print(b)
yield b # 通过yield使函数变为一个生成器
a, b = b, a+b
n += 1
return 'the function is done'
print(fib(5))
输出:
<generator object fib at 0x000000000212D938>
其中,函数fib的返回值‘the function is done’是函数发生StopIteration异常时的输出值,可用try…except…验证
g = fib(5)
while True:
try:
x = g.__next__()
print(x)
except StopIteration as e:
print('generator return value:', e.value)
break
输出:
1
1
2
3
5
generator return value: the function is done
还可通过yield实现在单线程的情况下进行并发运算的效果
import time
def consumer(name):
print('%s 准备来吃米啦~' % name)
while True:
rice = yield
print('米 %s 来啦,被 %s 吃了' %(rice, name))
def producer(name):
c1 = consumer('A')
c2 = consumer('B')
c1.__next__()
c2.__next__()
print('%s 开始准备米啦~' % name)
for i in range(5):
time.sleep(1)
print('%s准备了一份米,分成两份!' % name)
c1.send(i)
c2.send(i) # send()方法可以向生成器中传递值,并调用生成器
producer('Amy')
输出:
A 准备来吃米啦~
B 准备来吃米啦~
Amy 开始准备米啦~
Amy准备了一份米,分成两份!
米 0 来啦,被 A 吃了
米 0 来啦,被 B 吃了
Amy准备了一份米,分成两份!
米 1 来啦,被 A 吃了
米 1 来啦,被 B 吃了
Amy准备了一份米,分成两份!
米 2 来啦,被 A 吃了
米 2 来啦,被 B 吃了
Amy准备了一份米,分成两份!
米 3 来啦,被 A 吃了
米 3 来啦,被 B 吃了
Amy准备了一份米,分成两份!
米 4 来啦,被 A 吃了
米 4 来啦,被 B 吃了
二、迭代器
可以直接作用于for循环的数据类型有以下几种:
一类是集合数据类型,如list,tuple,dict,set,str等;
一类是generator,包括生成器和带yield的generator function
这些可以直接作用于for循环的对象统称为可迭代对象:Iterable
可以使用isinstance()判断一个对象是否是Iterable对象;
>>> from collections import Iterable
>>> isinstance([], Iterable)
True
>>> isinstance({}, Iterable)
True
>>> isinstance((), Iterable)
True
>>> isinstance('absd', Iterable)
True
可以被_next_()函数调用并不断返回下一个值的对象称为迭代器:Iterator
>>> from collections import Iterator
>>> isinstance((x for x in range(10)), Iterator)
True
>>> isinstance([], Iterator)
False
>>> isinstance({}, Iterator)
False
>>> isinstance((), Iterator)
False
>>> isinstance('absd', Iterator)
False
生成器都是Iterator对象,但list,dict,str虽然是Iterable,却不是Iterator。
把list,dict,str等Iterable变成Iterator可以使用iter()函数
>>> from collections import Iterator
>>> isinstance(iter([]), Iterator)
True
>>> isinstance(iter('abc'), Iterator)
True
为什么list,dict,str等数据类型不是Iterator?
这是因为python的Iterator对象表示的是一个数据流,Iterator对象可以被next()函数调用并不断返回下一个数据,直到没有数据时抛出StopIteration错误。可以把这个数据流看作是一个有序序列,但我们却不能提前直到序列的长度,只能不断通过next()函数实现按需计算下一个数据,所有Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。
Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能储存全体自然数的。
小结
凡是可作用于for循环的对象都是Iterable类型;
凡是可作用于next()函数的对象都是Iterator类型,他们2表示一个惰性计算呢的序列;
集合数据类型如list,dict,str等是Iterable但不是Iterator,不过可以通过iter()函数获得一个Iterator对象。
python的for循环本质上就是通过不断被调用next()函数实现的。