前面提到,对于数据量很大时,可以用生成器表达式代替列表推导,同样,当一个函数返回列表且数据量很大时,应该考虑使用生成器。
案例1:获取字符串中每个单词的首字母
def index_words(text):
result = []
if text:
result.append(0)
for index,letter in enumerate(text):
if letter == ' ':
result.append(index+1)
return result
if __name__ == "__main__":
text = "Four score and seven years ago..."
result = index_words(text)
print(result)
上面的函数,在返回前,将所有的结果存放到result
列表中。如果文本输入量很大,就会导致程序耗尽内存并崩溃。如果使用生成器,则可以应对任意长度的输入数据。
生成器是使用yield表达式的函数。
- 调用生成器函数时,它并不会真的运行,而是会返回迭代器。每次在迭代器上面调用
next
函数,迭代器会把生成器推进到下一个yield
表达式那里。 - 生成器调用
yield
的每一个值,都会由迭代器返回给调用者。 - 无论输入量多大,生成器产生一系列输出,都不会影响执行时所消耗的内存。
利用生成器改写的上述函数为:
def index_words(text):
if text:
yield 0
for index,letter in enumerate(text):
if letter == " ":
yield index+1
if __name__ == "__main__":
text = "Four score and seven years ago..."
it = index_words(text) # 迭代器
result = list(it)
print(result)
定义这种生成器函数的时候,唯一需要注意的就是:函数返回的那个迭代器,是有状态的,调用者不应该反复使用它。