Python的内建模块itertools
提供了非常有用的用于操作迭代对象的函数。
首先我们看看itertools模块提供的几个“无限”迭代器,
import itertools naturals = itertools.count(1) for i in naturals: # Count(self, start, step) print(i)
因为count()
会创建一个无限的迭代器,所以上述代码会打印出自然数序列,根本停不下来,只能按Ctrl+C
退出
islice() 正好适用于在迭代器和生成器上做切片操作。
for i in itertools.islice(naturals, 1, 10): print(i)
程序输出的是2到10,注意islice()函数输出不包含start,包含stop
cycle()
会把传入的一个序列无限重复下去:
for i in itertools.cycle([1, 2, 3]): print(i)
同样停不下来
repeat()
负责把一个元素无限重复下去,不过如果提供第二个参数就可以限定重复次数
for c in itertools.repeat('A', 3): print(c)
程序输出:
A A A
无限序列只有在for
迭代时才会无限地迭代下去,如果只是创建了一个迭代对象,它不会事先把无限个元素生成出来,事实上也不可能在内存中创建无限多个元素。
无限序列虽然可以无限迭代下去,但是通常我们会通过takewhile()
等函数根据条件判断来截取出一个有限的序列:
naturals = itertools.count(1) for i in itertools.takewhile(lambda x: x < 10, naturals): print(i)
程序输出1到9的自然数。
与takewhile()相对应的有dropwhile()
for i in itertools.dropwhile(lambda x: x >= 10, naturals): print(i)
chain()
可以把一组迭代对象串联起来,形成一个更大的迭代器:
for i in itertools.chain([1, 2, 3], [4, 5, 6]): print(i)
itertools.chain() 接受一个或多个可迭代对象最为输入参数。然后创建一个迭代器,依次连续的返回每个可迭代对象中的元素。这种方式要比先将序列合并再迭代要高效的多。
groupby()
把迭代器中相邻的重复元素挑出来放在一起:
for key, group in itertools.groupby('AAABBBCCCAAA'): print(key, list(group))
实际上挑选规则是通过函数完成的,只要作用于函数的两个元素返回的值相等,这两个元素就被认为是在一组的,而函数返回值作为组的key。如果我们要忽略大小写分组,就可以让元素'A'
和'a'
都返回相同的key:
for key, group in itertools.groupby('AaaBbbCCc', lambda c: c.upper()): print(key, list(group))
itertools
模块提供的全部是处理迭代功能的函数,它们的返回值不是list,而是Iterator
,只有用for
循环迭代的时候才真正计算
你想在迭代一个序列的同时跟踪正在被处理的元素索引?内置的enumerate() 函数可以很好的解决这个问题:
list_c = ['a', 'b', 'c'] for i, c in enumerate(list_c): print(i, c)
为了按传统行号输出(行号从1 开始),你可以传递一个开始参数:
list_c = ['a', 'b', 'c'] for i, c in enumerate(list_c, 1): print(i, c)
利用enumerate()函数,在你遍历文件时想在错误消息中使用行号定位时候非常有用:
def parser_file(filename):
with open(filename) as f:
for line_no, line in enumerate(f):
fields = line.split('=')
try:
count = int(fields[0])
print(count)
except ValueError as e:
print("line {0} parse error:[{1}]".format(line_no, e))
def main():
parser_file("test.txt")
if __name__ == '__main__':
main()
enumerate() 函数返回的是一个enumerate 对象实例,它是一个迭代器,返回连续的包含一个计数和一个值的元组,元组中的值通过在传入序列上调用next() 返回。
还有一点可能并不很重要,但是也值得注意,有时候当你在一个已经解压后的元组序列上使用enumerate() 函数时很容易调入陷阱。你得像下面正确的方式这样写:
t_list = [(1, 2), (3, 4), (5, 6)]
# Error!
for i, x, y in enumerate(t_list, 1):
print("{0}:({1}, {2})".format(i, x, y))
# Correct!
for i, (x, y) in enumerate(t_list, 1):
print("{0}:({1}, {2})".format(i, x, y)