本篇来简单比较一下 Python 中的可迭代对象 (iterable)、迭代器 (iterator) 与生成器 (generator)。进入正题之前,先来道开胃小菜:l.reverse() vs. reversed(l)
l = [1,2,3]
l.reverse()
l.reverse()
方法对列表原地进行翻转,无返回值;并且只能针对列表翻转。
iter_ = reversed(l)
next(iter_)
reversed(l)
返回一个 iterator 迭代器,可以用 list(reversed(l))
把它转化成列表。并且可以对 list, tuple, string 等可迭代对象翻转。
注意:调用迭代器的 next
方法会减少该迭代器内的元素,永久丢失这部分信息。如下面的例子:
l = [1,2,3]
iter_ = reversed(l)
next(iter_)
list(iter_)
>>> [2,1]
iterable & iterator
Python 中有许多对象是可迭代的(iterable),譬如 list, tuple, dict, set… 但它们都不是迭代器(iterator)。range()
返回的 range obejct 是可迭代的,但它也不是迭代器。可以这么理解,任何能用 for loop 遍历的对象都是可迭代的。迭代器一定是可迭代的,但反之不成立。
何为迭代器?
iterator is a general concept: any object whose class has a
__next__
method and an__iter__
method that doesreturn self
.
下面是一个迭代器的例子。每次调用 next()
就会产生 a, b 之间的一个数的平方,并且移向下一个数,直到 a,b 之间的数用尽。
class Squares(object):
def __init__(self, start, stop):
self.start = start
self.stop = stop
def __iter__(self):
return self
def __next__(self): # next in Python 2
if self.start >= self.stop:
raise StopIteration
current = self.start * self.start
self.start += 1
return current
iterator = Squares(a, b)
next(iterator) # return a^2
next(iterator) # return (a+1)^2
iterator & generator
generator 是生成器,它属于迭代器,但反之迭代器不一定是生成器。
简单来说,生成器可以通过调用带有 yeild
的函数来得到
A generator is built by calling a function that has one or more
yield
expressions
下面是一个生成器的例子,与之前的迭代器有一样的效果。
def squares(start, stop):
for i in range(start, stop):
yield i * i
generator = squares(a, b)
或者还可以更简单。类似于列表生成式,也有生成器生成式,只需要把 []
换成 ()
:
generator = (i*i for i in range(a, b))
Ref :
Difference between Python’s Generators and Iterators
Why is the range object “not an iterator”?
生成器的应用
假设有一个 10GB 的日志文件,记录了软件崩溃时的情况。为了 debug,我们要查看日志文件。最糟糕的方法是读取整个文件,它太慢了;但实际上由于我们一行一行地查看日志,所以不需要一次性读取全部数据,只需一次读取一小部分。这就生成器的一个应用场景。
def read_large_file(filename):
with open(filename) as f:
while True:
chunk = f.read(1024)
if not chunk:
break
yield chunk
for chunk in read_large_file("logs.txt"):
process_func(chunk)