[Python标准库]itertools——迭代器函数

最新推荐文章于 2024-02-27 15:26:08 发布

dapeng0802

最新推荐文章于 2024-02-27 15:26:08 发布

阅读量972

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/dapeng0802/article/details/50472164

版权

Python 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

[Python标准库]itertools——迭代器函数
      作用：itertools 模块包含一组函数用于处理序列数据集。
      Python 版本：2.3 及以后版本
      itertools 提供的函数是受函数式编程语言（如 Clojure 和 Haskell）中类似特性的启发。其目的是保证快速，并且高效地使用内存，而且可以联结在一起表述更为复杂的基于迭代的算法。
       与使用列表的代码相比，基于迭代器的算法可以提供更好的内存使用特性。在真正需要数据之前，并不从迭代器生成数据，由于这个原因，不需要将所有数据都同时存储在内存中。这种“懒”处理模型可以减少内存使用，相应地还可以减少交换以及大数据集的其他副作用，从而改善性能。
合并和分解迭代器
       chain() 函数取多个迭代器作为参数，最后返回一个迭代器，它能生成所有输入迭代器的内容，就好像这些内容来自一个迭代器一样。

from itertools import *

for i in chain([1, 2, 3], ['a', 'b', 'c']):
    print i,
print

利用 chain()，可以轻松地处理多个序列而不必构造一个大的列表。
izip() 返回一个迭代器，它会把多个迭代器的元素结合到一个元组中。

from itertools import *

for i in izip([1, 2, 3], ['a', 'b', 'c']):
    print i

这个函数的工作方式类似于内置函数 zip()，只不过它会返回一个迭代器而不是列表。
islice() 函数返回一个迭代器，它按索引返回由输入迭代器所选的元素。

from itertools import *

print 'Stop at 5:'
for i in islice(count(), 5):
    print i,
print '\n'

print 'Start at 5, Stop at 10:'
for i in islice(count(), 5, 10):
    print i,
print '\n'

print 'By tens to 100:'
for i in islice(count(), 0, 100, 10):
    print i,
print '\n'

islice() 与列表的 slice 操作符参数相同，同样包括开始位置（start）、结束位置（stop）和步长（step）。start 和 step 参数是可选的。
tee() 函数根据一个原输入迭代器返回多个独立的迭代器（默认为两个）。

from itertools import *

r = islice(count(), 5)
i1, i2 = tee(r)

print 'i1:', list(i1)
print 'i2:', list(i2)

tee() 的语义类似于 UNIX tee 工具，它会重复从输入读到的值，并把它们写至一个命名文件和标准输出。tee() 返回的迭代器可以用来为将并行处理的多个算法提供相同的数据集。
tee() 创建的新迭代器共享其输入迭代器，所以一旦创建了新迭代器，就不应再使用原迭代器。

from itertools import *

r = islice(count(), 5)
i1, i2 = tee(r)

print 'r:',
for i in r:
    print i,
    if i > 1:
        break
print

print 'i1:', list(i1)    
print 'i2:', list(i2)

如果原输入迭代器的值已经利用，新迭代器就不会再生成这些值。
转换输入
imap() 函数会返回一个迭代器，它对输入迭代器中的值调用一个函数并返回结果。impa() 函数的工作方式类似于内置函数 map()，只不过只要有某个输入迭代器中的元素全部用完，imap() 函数都会停止（而不是插入 None 值来完全利用所有输入）。

from itertools import *

print 'Doubles:'
for i in imap(lambda x:2*x, xrange(5)):
    print i

print 'Multiples:'
for i in imap(lambda x,y:(x, y, x*y), xrange(5), xrange(5, 10)):
    print '%d * %d = %d' % i

在第一个例子中，lambda 函数将输入值乘以 2。在第二个例子中，lambda 函数将两个参数相乘（这两个参数分别来自不同的迭代器），并返回一个 tuple，其中包含原参数和计算得到的值。
starmap() 函数类似于 imap()，不过并不是由多个迭代器构建一个 tuple，它使用 * 语法分解一个迭代器中的元素作为映射函数的参数。

from itertools import *

values = [(0, 5), (1, 6), (2, 7), (3, 8), (4, 9)]
for i in starmap(lambda x,y:(x, y, x*y), values):
    print '%d * %d = %d' % i

imap() 的映射函数名为 f(i1, i2)，而传入 starmap() 的映射函数名为 f(*i)。
生成新值
count() 函数返回一个迭代器，能够无限地生成连续整数。第一个数可以作为参数传入（默认为 0）。这里没有上界参数。

from itertools import *

for i in izip(count(1), ['a', 'b', 'c']):
    print i

这个例子会停止，因为 list 参数已经利用过。
cycle() 函数返回一个迭代器，它会无限地重复给定参数的内容。由于必须记住输入迭代器的全部内容，因此如果这个迭代器很长，可能会耗费大量内存。

from itertools import *

for i, item in izip(xrange(7), cycle(['a', 'b', 'c'])):
    print (i, item)

这个例子中使用了一个计数器变量，在数个周期后会跳出循环。
repeat() 函数返回一个迭代器，每次访问时会生成相同的值。

from itertools import *

for i in repeat('over-and-over', 5):
    print i

reprat() 返回的迭代器会一直返回数据，除非提供了可选的 times 参数来限制次数。
如果既要包含来自其他迭代器的值，还要包含一些不变的值，那么将 repeat() 与 izip() 或 imap() 结合使用会很有用。

from itertools import *

for i, s in izip(count(), repeat('over-and-over', 5)):
    print i, s

这个例子中就结合了一个计数器值和 repeat() 返回的常量。
下面这个例子使用 imap() 将 0 ~ 4 区间中的数乘以 2。

from itertools import *

for i in imap(lambda x,y:(x, y, x*y), repeat(2), xrange(5)):
    print '%d * %d = %d' % i

repeat() 迭代器不需要显式限制，因为任何一个输入结束时 imap() 就会停止处理，而 xrange() 只返回 5 个元素。
过滤
dropwhile() 函数返回一个迭代器，它会生成输入迭代器中条件第一次为 false 之后的元素。

from itertools import *

def should_drop(x):
    print 'Testing:', x
    return (x<1)

for i in dropwhile(should_drop, [ -1, 0, 1, 2, -2 ]):
    print 'Yielding:', i

dropwhile() 并不会过滤输入的每一个元素；第一次条件为 false 之后，输入中所有的余下的元素都会返回。
takewhile() 与 dropwhile() 正好相反。它也返回一个迭代器，这个迭代器将返回输入迭代器中保证测试条件为 true 的元素。

from itertools import *

def should_take(x):
    print 'Testing:', x
    return (x<2)

for i in takewhile(should_take, [ -1, 0, 1, 2, -2 ]):
    print 'Yielding:', i

一旦 should_take() 返回 false，takewhile() 就会停止处理输入。
ifilter() 返回一个迭代器，它的工作方式与内置 filter() 处理列表的做法类似，其中只包含测试条件返回 true 时的相应元素。

from itertools import *

def check_item(x):
    print 'Testing:', x
    return (x<1)

for i in ifilter(check_item, [ -1, 0, 1, 2, -2 ]):
    print 'Yielding:', i

ifilter() 与 dropwhile() 不同，在返回之前对每一个元素都会进行测试。
ifilterfalse() 返回一个迭代器，其中只包含测试条件返回 false 时的相应元素。

from itertools import *

def check_item(x):
    print 'Testing:', x
    return (x<1)

for i in ifilterfalse(check_item, [ -1, 0, 1, 2, -2 ]):
    print 'Yielding:', i

check_item() 中的测试表达式与前面相同，所以在这个使用 ifilterfalse() 的例子中，其结果与上一个例子的结果正好相反。
数据分组
groupby() 函数返回一个迭代器，它会生成按一个公共键组织的值集。下面这个例子展示了如何根据一个属性对相关的值分组。

from itertools import *
import operator
import pprint

class Point:
    def __init__(self, x, y):
        self.x = x
        self.y = y
    def __repr__(self):
        return '(%s, %s)' % (self.x, self.y)
    def __cmp__(self, other):
        return cmp((self.x, self.y), (other.x, other.y))

# Create a dataset of Point instances
data = list(imap(Point,
                 cycle(islice(count(), 3)),
                 islice(count(), 7),
                 )
            )
print 'Data:'
pprint.pprint(data, width=69)
print

# Try to group the unsorted data based on X values
print 'Grouped, unsorted:'
for k, g in groupby(data, operator.attrgetter('x')):
    print k, list(g)
print

# Sort the data
data.sort()
print 'Sorted:'
pprint.pprint(data, width=69)
print

# Group the sorted data based on X values
print 'Grouped, sorted:'
for k, g in groupby(data, operator.attrgetter('x')):
    print k, list(g)
print

输入序列要根据键值排序，以保证得到预期的分组。