【Python】使用迭代器和生成器处理文件,使用小内存处理大文件

问题描述:

当我们在读取文件时,通常会占用较大内存,但是当内存有限的时候,我们应该如何去处理/读取文件呢

全部读取处理方式

import tracemalloc
filepath = "test.txt"
# 开始跟踪内存分配
tracemalloc.start() 
def process_line(line):
    pass
with open(filepath, 'r') as f:
    lines = f.readlines()
for line in lines:
    process_line(line)

# 获取当前内存使用情况以及峰值内存
current, peak = tracemalloc.get_traced_memory()
print(f"current memory usage: {current/1024**2} MB")
print(f"peak memory usage: {peak/1024**2}MB")
tracemalloc.stop()

代码输出:

current memory usage: 5.999628067016602 MB
peak memory usage: 6.011771202087402MB

上面代码中,我们一次性将文件全部读取到内存中,然后对每一行数据进行处理
当前内存使用:5.99MB
峰值内存使用:6.01MB

这只是一个较小的文件(文件大小576K),当处理文件大小为几GB甚至几十GB时候,严重超出系统内存大小,应该如何处理呢?

解决方法1:使用迭代器

# 开始跟踪内存分配
tracemalloc.start()
class LineIterator:
    def __init__(self, filepath) -> None:
        self.file = open(filepath, 'r')
    
    def __iter__(self):
        return self
    
    def __next__(self):
        line = self.file.readline()
        # 这里可以对行进行处理,筛选出我们需要的行返回
        if line:
            return line
        else:
            self.file.close()
            raise StopIteration
            
line_iter = LineIterator(filepath)

for line in line_iter:
    process_line(line)
#  获取当前内存使用情况以及峰值内存
current, peak = tracemalloc.get_traced_memory()
print(f"current memory usage: {current/1024**2} MB")
print(f"peak memory usage: {peak/1024**2}MB")
tracemalloc.stop()

代码输出:

current memory usage: 0.003922462463378906 MB
peak memory usage: 0.03148365020751953MB

上述代码中,我们自己写了一个迭代器来一行一行的读取文件
内存占用从5.99MB降低至0.0039MB
峰值内存从6.01MB降低至0.031MB
极大的降低了内存的使用

解决方法2:

tracemalloc.start()
with open(filepath, 'r') as f:
    for line in f:
        process_line(line)
        
# 获取当前内存使用情况以及峰值内存
current, peak = tracemalloc.get_traced_memory() 
print(f"current memory usage: {current/1024**2} MB")
print(f"peak memory usage: {peak/1024**2}MB")
tracemalloc.stop()

代码输出:

current memory usage: 0.0012960433959960938 MB
peak memory usage: 0.021081924438476562MB

当前内存占用0.0012MB
峰值内内存占用0.021MB

解决方法3:生成器

tracemalloc.start()

def generator(file_path):
    with open(file_path,'r') as f:
        for line in f:
            yield line

gen = generator(filepath)
for line in gen:
    process_line(line)

current, peak = tracemalloc.get_traced_memory()  # 获取当前内存使用情况以及峰值内存
print(f"current memory usage: {current/1024**2} MB")
print(f"peak memory usage: {peak/1024**2}MB")
tracemalloc.stop()

代码输出:

current memory usage: 0.0008630752563476562 MB
peak memory usage: 0.021325111389160156MB

当前内存使用:0.00086MB
峰值内存使用:0.021MB

写入文件时内存占用测试

import tracemalloc
file_path = "test.txt"

tracemalloc.start()
with open(file_path, "a") as f:
    for i in range(1000):
        f.write(str(i)+'\n')

current, peak = tracemalloc.get_traced_memory()

print(f"current memory usage: {current/1024**2} MB")
print(f"peak memory usage: {peak/1024**2}MB")

当i的值为1000时代码输出:

current memory usage: 0.001049041748046875 MB
peak memory usage: 0.0675973892211914MB

当i的值为100000时代码输出:

current memory usage: 0.001049041748046875 MB
peak memory usage: 0.12307262420654297MB

当i的值为10000000时代码输出:

current memory usage: 0.001049041748046875 MB
peak memory usage: 0.12307262420654297MB

本文参考:
https://www.bilibili.com/video/BV1jt421c7yN/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=cf0b4c9c919d381324e8f3466e714d7a

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
迭代器生成器Python 中用于处理可迭代对象的两种重要机制。 迭代器是一个实现了迭代协议的对象,它通过定义 `__iter__()` 和 `__next__()` 方法来实现。`__iter__()` 方法返回迭代器本身,而 `__next__()` 方法返回下一个元素。当没有更多元素时,`__next__()` 方法会引发 `StopIteration` 异常。可以使用内置的 `iter()` 函数从可迭代对象中获取迭代器生成器是一种特殊的迭代器,它使用函数来创建。生成器函数使用 `yield` 语句来产生一个值,并在下次调用时从离开的地方继续执行。与普通函数不同,生成器函数在调用时不会立即执行,而是返回一个生成器对象。可以使用 `next()` 函数或 `for` 循环来迭代生成器对象。 使用生成器可以有效地处理大型数据集或无限序列,因为它们按需生成值,而不需要一次性将所有值存储在内存中。 下面是一个迭代器生成器的示例代码: ```python # 迭代器示例 class MyIterator: def __init__(self, data): self.data = data self.index = 0 def __iter__(self): return self def __next__(self): if self.index >= len(self.data): raise StopIteration value = self.data[self.index] self.index += 1 return value my_iter = MyIterator([1, 2, 3]) for num in my_iter: print(num) # 生成器示例 def my_generator(data): for num in data: yield num my_gen = my_generator([1, 2, 3]) for num in my_gen: print(num) ``` 输出结果为: ``` 1 2 3 1 2 3 ``` 希望以上内容能对你有所帮助!如果你还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值