[转]python 大文件以行为单位读取方式比对

最新推荐文章于 2024-03-23 11:03:59 发布

Wiseehw

最新推荐文章于 2024-03-23 11:03:59 发布

阅读量682

点赞数

分类专栏： Python 文章标签： python 文件

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

[转]http://www.cnblogs.com/aicro/p/3371986.html

先前需要做一个使用python读取大文件（大于1G），并逐条存入内存进行处理的工作。做了很多的尝试，最终看到了如下的文章。

http://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python

该文章实际上提供了集中读取大文件的方式，先经过测试总结如下

1. for line in fileHandle:

该方式是最快速的。而且python虚拟机在内部帮助我们对buffer进行管理，内存占用量小，且不差错。

2. fileinput方式

该方式实际效果较慢，但是也有buffer管理功能

3. （自己摸索和尝试的）使用file.read（sizeHint)的方式进行区块读取

该方法是三者中最慢的，而且需要自己去控制内存和选择需要的区域，所以在读到的buffer之后，还需要进行拆分工作，比较麻烦，而且容易出错。最无奈的是，使用下来（我的环境是2.6和2.7），sizeHint作用较小，原来觉得如果sizeHint是1024，则每次在内存中只会驻留1024B的内容，但是实际上不是这样的，在度过一次1024B之后，再次读取1024B的时候，尽管已经对之前的buf进行了del操作，但是该1024B仍然存留于内存中，所以内存越吃越大，最终MemoryError。

4. file.readline和file.readlines

和read类似，只适用于小文件。

结论：

在使用python进行大文件读取时，应该返璞归真，使用最简单的方式，交给解释器，就管好自己的工作就行了。

附，实测数据(这里的数据是我的程序的实际运行情况，在程序中其实读了两个差不多大小的文件，并做了一定逻辑处理，所以绝对值是没有意义的，但是相对比较值很能够说明情况）

1. 大文件（>1.4G)