Python处理大文件

最新推荐文章于 2024-08-19 17:47:49 发布

efeics

最新推荐文章于 2024-08-19 17:47:49 发布

阅读量1.3w

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/efeics/article/details/12260147

版权

本文探讨了在Python中处理大文件的策略，包括read()、readline()和readlines()方法。通过实验，发现readline()和readlines()在处理大文件时更有效，但内存限制可能是个挑战。对于超过内存限制的文件，使用readline()循环读取和readlines()指定行数读取是可行的解决方案。同时，文件中可能存在导致错误的EOF符号，影响处理效率。

摘要由CSDN通过智能技术生成

要将一个4G的文本文件切分开

读取文本文件大致有read() 、readline()、readlines()三种

read()会将所有内容读入到一个字符串中

readlines()将所有内容按行读取，返回一个列表，列表中每个元素是一个字符串，一个字符串是一行内容，所以可利用如下格式处理

for line in f.readlines():	     # 1
	process(line)

其实在python2.2之后，文件也是一个对象，甚至可以这样处理

for line in f:			     # 2
	process(line)

readline()每次读取一行

所以read()及readlines()效率高，但是需要内存能放的下

而后一种可以处理比较大的文件。

在处理时采用第1种方法和第2中方法，都只处理了不到200M的数据……

采用readline()

line = f.readline()                    #3
while line:
	process(line)
	line = f.readline()

同样只处理不到200M，很怪

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

efeics CSDN认证博客专家 CSDN认证企业博客

码龄16年

33: 原创

24万+: 周排名

153万+: 总排名

21万+: 访问

: 等级

2208: 积分

37: 粉丝

10: 获赞

31: 评论

28: 收藏

私信

关注

热门文章

分类专栏

BigTable 1篇
结构与算法 2篇
Google论文 1篇
编程基础 17篇
杂七杂八 5篇
Python 14篇
笔试面试 2篇
Android 5篇
SQLite 1篇
GEO 1篇
分享

最新评论

Python操作泄露的QQ群数据库
djytbhw: 大神这个数据在哪里下载啊，我怎么找不到
vector 的删除操作pop_back、erase效率对比
4B橡皮: 你这对比一言难尽
Python操作泄露的QQ群数据库
qq_40928089: 大佬。请问一下数据库还有吗？
Python操作泄露的QQ群数据库
m0_54096688: 谁有数据分享一下有偿也可以577654682
vector 的删除操作pop_back、erase效率对比
wesion666: 你用erase删除了一个范围，相当于调用了1次函数而已，而你用pop_back却调用了10000000次，所以开销是花在了压栈出栈上，所以不能这么比较这两个函数的效率。当然从功能上来说，如果你要删除一大块数据，用erase的效率是要比pop_back要高效！

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。