一、生成器(Generators)
⾸先我们要理解迭代器(iterators)。根据维基百科,迭代器是⼀个让程序员可以遍历⼀个容器(特别是列表)的对象。然⽽,⼀个迭代器在遍历并读取⼀个容器的数据元素时,并不会执⾏⼀个迭代。你可能有点晕了,那我们来个慢动作。换句话说这⾥有三个部分:
- 可迭代对象(Iterable)
- 迭代器(Iterator)
- 迭代(Iteration)
上⾯这些部分互相联系。我们会先各个击破来讨论他们,然后再讨论⽣成器(generators).
1、可迭代对象(Iterable)
Python中任意的对象,只要它定义了可以返回⼀个迭代器的__iter__⽅法,或者定义了可以⽀持下标索引的__getitem__⽅法(这些双下划线⽅法会在其他章节中全⾯解释),那么它就是⼀个可迭代对象。简单说,可迭代对象就是能提供迭代器的任意对象。
2、迭代器(Iterator)
任意对象,只要定义了next(Python2) 或者__next__⽅法,它就是⼀个迭代器。就这么简单。
3、迭代(Iteration)
⽤简单的话讲,它就是从某个地⽅(⽐如⼀个列表)取出⼀个元素的过程。当我们使⽤⼀个循环来遍历某个东西时,这个过程本⾝就叫迭代。现在既然我们有了这些术语的基本理解,那我们开始理解⽣成器吧。
4、⽣成器(Generators)
⽣成器也是⼀种迭代器,但是你只能对其迭代⼀次。这是因为它们并没有把所有的值存在内存中,⽽是在运⾏时⽣成值。你通过遍历来使⽤它们,要么⽤⼀个“for”循环,要么将它们传递给任意可以进⾏迭代的函数和结构。⼤多数时候⽣成器是以函数来实现的。然⽽,它们并不返回⼀个值,⽽是yield(暂且译作“⽣出”)⼀个值。
这⾥有个⽣成器函数的简单例⼦:
def generator_function():
for i in range(5):
yield i
for item in generator_function():
print(item)
# Output: 0
# 1
# 2
# 3
# 4
这个案例并不是⾮常实⽤。⽣成器最佳应⽤场景是:你不想同⼀时间将所有计算出来的⼤量结果集分配到内存当中,特别是结果集⾥还包含循环。但是,这样做会消耗⼤量资源。
许多Python 2⾥的标准库函数都会返回列表,⽽Python 3都修改成了返回⽣成器,因为⽣成器占⽤更少的资源。
下⾯是⼀个计算斐波那契数列的⽣成器:
# generator version
def fibon(n):
a = b = 1
for i in range(n):
yield a
a, b = b, a + b
Now we can use it like this:
for x in fibon(1000000):
print(x)
⽤这种⽅式,我们可以不⽤担⼼它会使⽤⼤量资源。然⽽,之前如果我们这样来实现的话:
def fibon(n):
a = b = 1
result = []
for i in range(n):
result.append(a)
a, b = b, a + b
return result
这也许会在计算很⼤的输⼊参数时,⽤尽所有的资源。我们已经讨论过⽣成器使⽤⼀次迭代,但我们并没有测试过。在测试前你需要再知道⼀个Python内置函数:next()。它允许我们获取⼀个序列的下⼀个元素。那我们来验证下我们的理解:
def generator_function():
for i in range(3):
yield i
gen = generator_function()
print(next(gen))
# Output: 0
print(next(gen))
# Output: 1
print(next(gen))
# Output: 2
print(next(gen))
# Output: Traceback (most recent call last):
# File "<stdin>", line 1, in <module>
# StopIteration
我们可以看到,在yield掉所有的值后,next()触发了⼀个StopIteration的异常。基本上这个异常告诉我们,所有的值都已经被yield完了。你也许会奇怪,为什么我们在使⽤for循环时没有这个异常呢?啊哈,答案很简单。for循环会⾃动捕捉到这个异常并
停⽌调⽤next()。你知不知道Python中⼀些内置数据类型也⽀持迭代哦?我们这就去看看:
my_string = "Yasoob"
next(my_string)
# Output: Traceback (most recent call last):
# File "<stdin>", line 1, in <module>
# TypeError: str object is not an iterator
好吧,这不是我们预期的。这个异常说那个str对象不是⼀个迭代器。对,就是这样!它是⼀个可迭代对象,⽽不是⼀个迭代器。这意味着它⽀持迭代,但我们不能直接对其进⾏迭代操作。那我们怎样才能对它实施迭代呢?是时候学习下另⼀个内置函数,iter。它将根据⼀个可迭代对象返回⼀个迭代器对象。这⾥是我们如何使⽤它:
my_string = "Yasoob"
my_iter = iter(my_string)
next(my_iter)
# Output: 'Y'
5、yield from
表达式
Python3.3版本新增yield from
语法,新语法用于将一个生成器部分操作委托给另一个生成器。此外,允许子生成器(即yield from后的“参数”)返回一个值,该值可供委派生成器(即包含yield from的生成器)使用。并且在委派生成器中,可对子生成器进行优化。
我们先来看最简单的应用,例如:
# 子生成器
def test(n):
i = 0
while i < n:
yield i
i += 1
# 委派生成器
def test_yield_from(n):
print("test_yield_from start")
yield from test(n)
print("test_yield_from end")
for i in test_yield_from(3):
print(i)
输出:
test_yield_from start
0
1
2
test_yield_from end
现在好多啦。我肯定你已经爱上了学习⽣成器。⼀定要记住,想要完全掌握这个概念,你只有使⽤它。确保你按照这个模式,并在⽣成器对你有意义的任何时候都使⽤它。你绝对不会失望的!
二、协程
Python中的协程和⽣成器很相似但又稍有不同。主要区别在于:
- ⽣成器是数据的⽣产者
- 协程则是数据的消费者
⾸先我们先来回顾下⽣成器的创建过程。我们可以这样去创建⼀个⽣成器:
def fib():
a, b = 0, 1
while True:
yield a
a, b = b, a+b
然后我们经常在for循环中这样使⽤它:
for i in fib():
print i
这样做不仅快⽽且不会给内存带来压⼒,因为我们所需要的值都是动态⽣成的⽽不是将他们存储在⼀个列表中。更概括的说如果现在我们在上⾯的例⼦中使⽤yield便可获得了⼀个协程。协程会消费掉发送给它的值。Python实现的grep就是个很好的例⼦:
def grep(pattern):
print("Searching for", pattern)
while True:
line = (yield)
if pattern in line:
print(line)
我们已经把它变成了⼀个协程。它将不再包含任何初始值,相反要从外部传值给它。我们可以通过send()⽅法向它传值。这有个例⼦:
search = grep('coroutine')
next(search)
#output: Searching for coroutine
search.send("I love you")
search.send("Don't you love me?")
search.send("I love coroutine instead!")
#output: I love coroutine instead!
发送的值会被yield接收。我们为什么要运⾏next()⽅法呢?这样做正是为了启动⼀个协程。就像协程中包含的⽣成器并不是⽴刻执⾏,⽽是通过next()⽅法来响应send()⽅法。因此,你必须通过next()⽅法来执⾏yield表达式。
我们可以通过调⽤close()⽅法来关闭⼀个协程:
search.close()
摘自:《python进阶》