本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注!
作者| 慕课网精英讲师 朱广蔚
1. 如何生成一个巨大的序列
1.1 需求描述
要求生成一个包含很多元素的序列,假设:
- 存储 1 个整数需要 4 个字节
- 现在要创建一个包含 1 G 个整数的序列,从 0 到 1 * 1024 * 1024 * 1024 - 1
- 如果需要为序列中的每个整数分配内存,则需要分配的内存为 1G * 4 = 4G
1.2 通过列表推导
Python 提供了列表推导用于生成列表,下面使用列表推导生成一个包含 0 到 4 之间所有整数的列表,代码如下:
>>> list = [i for i in range(4)]
>>> list
[0, 1, 2, 3]
代码块123
- 在第 1 行,使用列表推导创建一个包含 4 个元素的列表
- 在第 2 行,显示新创建的列表
- 在第 3 行,创建了一个包含 0、1、2、3 等 4 个元素的列表
如果生成一个从 0 到 1G 的列表,代码如下:
>>> N = 1024 * 1024 * 1024
>>> list = [i for i in range(N)]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "<stdin>", line 1, in <listcomp>
MemoryError
代码块123456
- 在第 1 行,设定 N 为 1G
- 在第 2 行,使用列表推导创建一个包含 N 个元素的列表
- 在第 6 行,程序运行出错,提示 MemoryError
使用列表推导创建包含 1G 个整数的列表时,需要为这 1G 个整数分配至少 4G 的内存,需要消耗大量的内存,超出了 Python 的限制,因此出现了 MemoryError 的错误。
另外,创建这个巨大的列表需要消耗大量的时间,因此执行第 2 行的语句后,系统失去响应,大约 10 多秒后才出现错误信息。
1.3 通过动态计算
列表推导需要一次性的为 1G 个整数分配内存空间,带来了两个问题:
- 列表占用了大量的物理内存
- 创建列表的时间过长
Python 提供了一种动态计算的思路解决以上问题,它的思想如下:
- 要生成的序列是有规则的,在这个例子中,要求生成连续递增的序列
- 使用一个特殊的对象 generator,该对象被称为生成器 generator,生成器按照规则依次输出该序列
- Python 提供了内置方法 next(generator),该方法通知生成器产生下一个数据并返回该数据
- 不需要为 generator 预先分配内存,通过调用 next(generator) 可以动态获取序列的下一个数据
创建一个输出从 0 到 1G 的生成器,代码如下