要将一个4G的文本文件切分开
读取文本文件大致有read() 、readline()、readlines()三种
read()会将所有内容读入到一个字符串中
readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理
for line in f.readlines(): # 1
process(line)
其实在python2.2之后,文件也是一个对象,甚至可以这样处理
for line in f: # 2
process(line)
readline()每次读取一行
所以read()及readlines()效率高,但是需要内存能放的下
而后一种可以处理比较大的文件。
在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……
采用readline()
line = f.readline() #3
while line:
process(line)
line = f.readline()
同样只处理不到200M,很怪