Python读取大文件方法对比

最新推荐文章于 2024-05-14 14:10:39 发布

mgsweet

最新推荐文章于 2024-05-14 14:10:39 发布

阅读量805

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/mgsweet/article/details/105305948

版权

本文探讨了Python处理大文件的各种方法，包括按行遍历、内存映射（mmap）以及在MPI环境下处理大文件的策略。对比了不同方法的优缺点，指出mmap在I/O性能上表现最佳，而在数据无特定划分方式时，使用yield和iter配合辅助函数成为可行方案。

摘要由CSDN通过智能技术生成

参考：Lazy Method for Reading Big File in Python?

首先可以确定的是不能用read()与readlines()函数
这两个函数均将数据全部读入内存，会造成内存不足的情况。

针对数据按行划分的文件

以计算行数为例，针对几种不同的方法作了比较

使用for遍历的方法，比较美观，网上搜索到十有八九是让你这样做，尽管已经很快了但不是最快的。

start = time.time()
with open(dataPath, 'r') as f:
count = 0
for line in f:
    count += 1
	print(count)	
print(time.time() - start)

输出：

5000
0.09386205673217773

使用readline()模拟遍历，发现其实结果和第一种差不多

start = time.time()
with open(dataPath, 'r') as f:
line = f.readline()
count = 1
while line:
    count += 1
    line = f.readline()
print(count - 1)
print(time.time() - start)

输出：

5000
0.09433221817016602

对比一下直接readlines()再访问？答案是反而慢了？！可能是因为遍历了两次的缘故？这个不是很懂，欢迎留言指点。
```
start = time.time()
with open(dataPath, 'r') as f:
count = 0
for line in f.readlines():
    count += 1
	print(count)
print(time
```

最低0.47元/天解锁文章

mgsweet

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python读取大文件方法对比

首先可以确定的是不能用read()与readlines()函数这两个函数均将数据全部读入内存，会造成内存不足的情况。读取大文件可取的方法是:with open(filepath, 'r') as f: for line in f: dosomething()或者：不过如果我们需要用到多核去处理呢？例如文件很大，没行存在一条数据，那么怎么读取会比较好？...
复制链接

扫一扫