标准库提供了很多生成器,有用于逐行迭代纯文本文件的对象,还有出色的 os.walk
函数。这个函数在遍历
目录树的过程中产出文件名
,因此递归
搜索文件系统像 for
循环那样简单。
os.walk
生成器函数的作用令人赞叹,不过本节专注于通用的函数:参数为任意的可迭代对象
,返回值是生成器
,产出选中的,计算出的或重新排列的项。在下述几个表格中,我会概述其中的 24个,有些是内置的,有些在 itertools
和 functools
模块中。为了方便,我按照函数的高阶功能
分组,而不管函数是在哪里定义的。
1. 第一组是用于筛选的生成器函数
:从输入
的可迭代对象
中产出元素的子集
,而且不修改
元素本身,之前的itertools.takewhile
函数。与 takewhile
函数一样,表 14-1 中的大多数函数都接受一个断言参数
(predicate
)。这个参数是个布尔函数
,有一个参数
,会应用到输入中的每个元素上,用于判断元素是否包含在输出中。
例子:
**2.**下一组是用于映射的生成器函数
:在输入的可迭代对象(map
和 starmap
函数处理多个
可迭代的对象)中的各个元素上做计算,然后返回结果。下表中的生成器函数会 输入的可迭代对象
中的各个元素中产出一个元素。如果输入来自多个可迭代的对象
,第一个
可迭代的对象到头后
就停止输出
。
例子:
**3.**接下来这一组是用于合并的生成器函数
,这些函数都从输入
的多个可迭代对象
中产出元素。chain
和 chain.from_iterable
按顺序(一个接一个
)处理输入的可迭代对象,而 product
、zip
和 zip_longest
并行
处理输入的各个可迭代对象。
例子:
4.有些生成器函数
会从一个元素中产出多个值
,扩展输入的可迭代对象
,如下图:
itertools
模块中的 count
和 repeat
函数返回的生成器“无中生有”:这两个函数都不接 受可迭代的对象作为输入。cycle
生成器会备份输入 的可迭代对象,然后重复产出对象中的元素。
例子:
在 itertools
模块的文档中(https://docs.python.org/3/library/itertools.html)
, combinations
、 combinations_with_replacement
和 permutations
生成器函数,连同 product
函数,称为组合 学生成器(combinatoric generator)。 itertools.product
函数和其余的组合学函数有紧密的 联系
**5.**最后一组生成器函数
用于产出输入的可迭代对象
中的全部元素
,不过会以某种方式重新排列
。其中有两个函数
会返回多个生成器
,分别是itertools.groupby
和 itertools.tee
。这一组里的另一个生成器函数
,内置的 reversed
函数,是本节所述的函 数中唯一一个不接受可迭代的对象
,而只接受序列
为参数的函数。这在情理之中,因为 reversed
函数从后向前产出元素,而只有序列的长度已知
时才能工作。不过,这个函数
会按需产出
各个元素,因此无需创建反转的副本
。我把 itertools.product
函数划分为用于合并的生成器
,因为那一组函数都处理多个可迭代的对象
,下表中的生成器最多只能接受一个可迭代的对象
。
itertools.groupby
函数和内置的 reversed
函数的用法。注意,itertools. groupby
假定输入的可迭代对象要使用分组标准排序;即使不排序,至少也要使用指定的 标准分组各个元素。
这一组里的最后一个生成器函数是 iterator.tee
,这个函数只有一个作用:从输入的一个 可迭代对象中产出多个生成器,每个生成器都可以产出输入的各个元素。产出的生成器可 以单独使用。
注意:
这一节的示例多次把不同的生成器函数组合在一起使用。这是这些函数的优秀特 性:这些函数的参数都是生成器,而返回的结果也是生成器,因此能以很多不同的方式结 合在一起使用。