Python读取大文件的"坑“与内存占用检测

最新推荐文章于 2025-03-26 15:41:41 发布

qq_38461388

最新推荐文章于 2025-03-26 15:41:41 发布

阅读量3.2k

点赞数 1

分类专栏： Python 编程文章标签： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38461388/article/details/82144548

版权

本文探讨了Python中read()与readlines()在处理大文件时可能导致的MemoryError问题，建议使用缓冲区控制的二进制读取或按行读取文本文件。同时，介绍了内存检测工具memory_profiler和guppy，帮助监控Python代码的内存占用，以优化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python读写文件的api都很简单，一不留神就容易踩”坑“。笔者记录一次踩坑历程，并且给了一些总结，希望到大家在使用python的过程之中，能够避免一些可能产生隐患的代码。

1.read()与readlines()：

随手搜索python读写文件的教程，很经常看到read()与readlines()这对函数。所以我们会常常看到如下代码：

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())

or

with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

这对方法在读取小文件时确实不会产生什么异常，但是一旦读取大文件，很容易会产生MemoryError，也就是内存溢出的问题。

####Why Memory Error？
我们首先来看看这两个方法：

当默认参数size=-1时，read方法会读取直到EOF，当文件大小大于可用内存时，自然会发生内存溢出的错误。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。