【Python】itertools 模块：高效的迭代器工具函数

彬彬侠

已于 2025-05-03 21:13:48 修改

阅读量1k

点赞数 28

分类专栏： Python基础文章标签： itertools accumulate starmap groupby compress takewhile python

于 2025-02-28 12:39:17 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/145925623

版权

Python基础专栏收录该内容

117 篇文章

订阅专栏

Python 的 itertools 模块是标准库的一部分，提供了一组高效的迭代器工具函数，用于处理可迭代对象。这些函数专为迭代操作设计，支持函数式编程，适用于生成序列、组合数据、过滤元素等场景。itertools 的实现基于 C 语言，性能高且内存效率优异，尤其适合处理大型数据集或需要复杂迭代逻辑的任务。

以下是对 itertools 模块的详细说明，包含其主要函数和用法。

1. itertools 模块的作用

高效迭代：提供快速、内存高效的工具，替代手动循环或列表推导式。
序列生成：生成无穷序列、笛卡尔积、排列组合等。
数据处理：支持过滤、分组、合并、切片等操作。
函数式编程：与高阶函数（如 map、filter）结合，简化代码。

2. 安装与环境要求

标准库：itertools 是 Python 内置模块，无需额外安装。
Python 版本：支持所有 Python 版本（2.x 和 3.x），3.x 是现代开发标准。
导入方式：
```
import itertools
```

3. 核心功能与分类

itertools 的函数可分为以下几类：

无穷迭代器：生成无限序列。
有限迭代器：处理有限序列的组合、排列等。
组合工具：生成笛卡尔积、排列、组合等。
其他工具：分组、切片、合并等。

以下按类别介绍常用函数。

3.1 无穷迭代器

这些函数生成无限序列，适合与 break 或其他终止条件结合使用。

函数	描述	示例
`count(start=0, step=1)`	从 `start` 开始，按 `step` 递增，生成无穷序列	`itertools.count(10, 2)` → 10, 12, 14, …
`cycle(iterable)`	循环重复可迭代对象中的元素	`itertools.cycle('ABC')` → A, B, C, A, B, C, …
`repeat(object, times=None)`	重复指定对象，无限次或指定次数	`itertools.repeat(5, 3)` → 5, 5, 5

示例：

import itertools

# count：生成偶数
for num in itertools.count(0, 2):
    if num > 6:
        break
    print(num)  # 输出: 0, 2, 4, 6

# cycle：循环输出
counter = 0
for char in itertools.cycle('ABC'):
    if counter >= 6:
        break
    print(char, end=' ')  # 输出: A B C A B C
    counter += 1

# repeat：重复元素
print(list(itertools.repeat(5, 3)))  # 输出: [5, 5, 5]

3.2 有限迭代器

这些函数从可迭代对象生成有限序列，常用于数据处理。

函数	描述	示例
`accumulate(iterable, func=operator.add, initial=None)`	计算累计结果（Python 3.8+ 支持 `initial`）	`itertools.accumulate([1, 2, 3])` → 1, 3, 6
`chain(*iterables)`	将多个可迭代对象连接为单个迭代器	`itertools.chain([1, 2], [3, 4])` → 1, 2, 3, 4
`chain.from_iterable(iterable)`	从可迭代对象中逐一解包并连接	`itertools.chain.from_iterable([[1, 2], [3, 4]])` → 1, 2, 3, 4
`compress(data, selectors)`	根据布尔选择器过滤元素	`itertools.compress('ABC', [1, 0, 1])` → A, C
`dropwhile(predicate, iterable)`	丢弃满足条件的开头元素，之后保留所有	`itertools.dropwhile(lambda x: x < 3, [1, 2, 3, 4])` → 3, 4
`takewhile(predicate, iterable)`	保留满足条件的开头元素，之后丢弃	`itertools.takewhile(lambda x: x < 3, [1, 2, 3, 4])` → 1, 2
`filterfalse(predicate, iterable)`	保留不满足条件的元素	`itertools.filterfalse(lambda x: x % 2, [1, 2, 3, 4])` → 2, 4
`groupby(iterable, key=None)`	按键函数分组（需预排序）	`itertools.groupby('AABBCC')` → (A, AA), (B, BB), (C, CC)
`islice(iterable, start, stop, step)`	对可迭代对象切片	`itertools.islice('ABCDEFG', 2, 5)` → C, D, E
`starmap(function, iterable)`	类似 `map`，但输入为元组	`itertools.starmap(pow, [(2, 3), (3, 2)])` → 8, 9
`tee(iterable, n=2)`	创建 n 个独立迭代器副本	`itertools.tee([1, 2, 3], 2)` → iter1, iter2
`zip_longest(*iterables, fillvalue=None)`	按最长可迭代对象配对，填充缺失值	`itertools.zip_longest([1, 2], [3], fillvalue=0)` → (1, 3), (2, 0)

示例：

import itertools
import operator

# accumulate：累加
print(list(itertools.accumulate([1, 2, 3, 4])))  # 输出: [1, 3, 6, 10]
print(list(itertools.accumulate([1, 2, 3, 4], operator.mul)))  # 输出: [1, 2, 6, 24]

# chain：连接
print(list(itertools.chain([1, 2], [3, 4])))  # 输出: [1, 2, 3, 4]

# compress：选择
print(list(itertools.compress('ABCDE', [1, 0, 1, 0, 1])))  # 输出: ['A', 'C', 'E']

# groupby：分组
data = sorted('AABBCC')
for key, group in itertools.groupby(data):
    print(key, list(group))  # 输出: A ['A', 'A'], B ['B', 'B'], C ['C', 'C']

3.3 组合工具

这些函数生成排列、组合或笛卡尔积，常用于数学或算法问题。

函数	描述	示例
`product(*iterables, repeat=1)`	笛卡尔积，替代嵌套循环	`itertools.product('AB', [1, 2])` → (A, 1), (A, 2), (B, 1), (B, 2)
`permutations(iterable, r=None)`	有序排列（长度 r）	`itertools.permutations('ABC', 2)` → (A, B), (A, C), (B, A), (B, C), (C, A), (C, B)
`combinations(iterable, r)`	无序组合（长度 r）	`itertools.combinations('ABC', 2)` → (A, B), (A, C), (B, C)
`combinations_with_replacement(iterable, r)`	无序组合，允许重复	`itertools.combinations_with_replacement('ABC', 2)` → (A, A), (A, B), (A, C), (B, B), (B, C), (C, C)

示例：

import itertools

# product：笛卡尔积
print(list(itertools.product('AB', [1, 2])))  # 输出: [('A', 1), ('A', 2), ('B', 1), ('B', 2)]

# permutations：排列
print(list(itertools.permutations('ABC', 2)))  # 输出: [('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')]

# combinations：组合
print(list(itertools.combinations('ABC', 2)))  # 输出: [('A', 'B'), ('A', 'C'), ('B', 'C')]

4. 性能与特点

惰性求值：itertools 函数返回迭代器，仅在需要时计算，节省内存。
高效实现：C 语言实现，性能优于 Python 循环或列表推导式。
内存效率：避免创建中间列表，适合处理大型数据集。
灵活性：可与其他高阶函数（如 map、filter）或 operator 模块结合。

性能对比：

import itertools
import time

# 使用 product vs 嵌套循环
start = time.time()
result = list(itertools.product(range(100), range(100)))
print(f"itertools.product time: {time.time() - start:.4f} seconds")

start = time.time()
result = [(i, j) for i in range(100) for j in range(100)]
print(f"Nested loop time: {time.time() - start:.4f} seconds")

输出示例：

itertools.product time: 0.0020 seconds
Nested loop time: 0.0050 seconds

分析：itertools.product 比嵌套循环更快，且内存占用更低。

5. 实际应用场景

数据生成：
- 使用 product 生成测试用例或网格搜索参数。
- 使用 permutations 和 combinations 解决算法问题（如排列组合）。
数据处理：
- 使用 chain 合并多个数据集。
- 使用 groupby 按条件分组。
流处理：
- 使用 islice 或 takewhile 处理流式数据。
数学建模：
- 使用 accumulate 计算累积统计。
游戏开发：
- 使用 cycle 实现循环动画或状态。

示例（生成扑克牌组合）：

import itertools

suits = ['♠', '♥', '♦', '♣']
ranks = ['A', '2', '3', '4', '5', '6', '7', '8', '9', '10', 'J', 'Q', 'K']
deck = [f"{rank}{suit}" for rank, suit in itertools.product(ranks, suits)]
print(deck[:5])  # 输出: ['A♠', 'A♥', 'A♦', 'A♣', '2♠']

6. 注意事项

惰性迭代：itertools 函数返回迭代器，需用 list() 或循环获取结果，且迭代器只能遍历一次。
排序要求：groupby 要求输入数据预排序，否则分组不正确。
内存管理：
- 避免将大型迭代器转为列表（如 list(itertools.count())），可能导致内存溢出。
- 使用 islice 或 takewhile 限制输出。
Python 版本：
- accumulate 的 initial 参数需 Python 3.8+。
- 某些函数（如 zip_longest）在 Python 3.x 中更稳定。
可读性：复杂 itertools 组合可能降低代码可读性，建议添加注释。

7. 综合示例

以下是一个综合示例，展示 itertools 在数据处理中的应用：

import itertools
import operator

# 数据
numbers = [1, 2, 3, 4]
words = ['apple', 'banana', 'cherry']

# 1. 生成所有可能的单词对
pairs = list(itertools.product(words, repeat=2))
print("Word pairs:", pairs[:3])  # 输出: [('apple', 'apple'), ('apple', 'banana'), ('apple', 'cherry')]

# 2. 计算累积乘积
cumprod = list(itertools.accumulate(numbers, operator.mul))
print("Cumulative product:", cumprod)  # 输出: [1, 2, 6, 24]

# 3. 合并多个列表并过滤
merged = itertools.chain(numbers, [5, 6])
evens = itertools.filterfalse(lambda x: x % 2, merged)
print("Evens:", list(evens))  # 输出: [2, 4, 6]

# 4. 分组字符串
data = sorted('AABBCC')
groups = [(key, list(group)) for key, group in itertools.groupby(data)]
print("Groups:", groups)  # 输出: [('A', ['A', 'A']), ('B', ['B', 'B']), ('C', ['C', 'C'])]