Python之读取大型文本文件

最新推荐文章于 2022-07-07 18:12:31 发布

weixin_30788239

最新推荐文章于 2022-07-07 18:12:31 发布

阅读量623

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/feigebaqi/p/10904946.html

版权

之前接触的数据，无论是csv还是txt格式，都比较小，最大也就几百兆。在读取过程中不会遇到内存崩溃的现象。

最近，项目中接收到的数据竟然比电脑内存还要大，读取过程中经常遇到memoryError错误，于是开始研究了关于大文件读取；于此参考了以下博客：

https://blog.csdn.net/u011847043/article/details/81069105

谈到“文本处理”时，我们通常是指处理的内容。

Python 将文本文件的内容读入可以操作的字符串变量非常容易。文件对象提供了三个“读”方法： .read()、.readline() 和 .readlines()。。

read() 一次性读取读取整个文件，将文件存储在一个字符串变量中。当文件接近或者大于内存时会产生memoryError的错误。

readline() 和 readlines() 之间的差异是后者一次读取整个文件，同 read()。

readlines() 自动将文件内容分析成一个行的列表，该列表可以由 Python 的 for ... in ... 结构进行处理。

另一方面，.readline() 每次只读取一行，通常比 readlines() 慢得多。仅当没有足够内存可以一次读取整个文件时，应该使用 .readline()。

with open('filepath', 'r', encoding = 'utf-8') as f:
　　while True:
　　　　line = f.readline() # 逐行读取
　　　　if not line: # 到 EOF，返回空字符串，则终止循环
　　　　　　break
　　　　Operate(line) #对每行数据进行处理

分块读取（实用靠谱）

将文档按块进行读取

def read_in_chunks(filePath, chunk_size=1024*1024):
　　file_object = open(filePath,'r',encoding='utf-8')
　　while True:
　　　　chunk_data = file_object.read(chunk_size)
　　　　if not chunk_data:
　　　　　　break
　　　　yield chunk_data
if __name__ == "__main__":
　　filePath = "C:/Users/Public/Documents/data/user_data.csv"
　　for chunk in read_in_chunks(filePath):
　　　　print(chunk)

转载于:https://www.cnblogs.com/feigebaqi/p/10904946.html

weixin_30788239

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。