Python的文本处理是经常碰到的一个问题,Python的文本文件的内容读取中,有三类方法:read()、readline()、readlines(),这三种方法各有利弊,下面逐一介绍其使用方法和利弊。
1、read():read()是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在内存中;
read()的利:方便、简单;一次性独读出文件放在一个大字符串中,速度最快
read()的弊:文件过大的时候,占用内存会过大
2、readline():逐行读取文本,生成一个list;
with open(file) as f:
line = f.readline()
while line:
print line
line = f.readline()
readline()的利端:占用内存小,逐行读取;readline()的弊端:由于逐行读取,速度比较慢;
3、readline():一次性读取所有文本,生成一个list;
with open(file) as f:
for line in f.readlines():
print line
这种方法读取的文本内容,每行文本末尾都会带一个'\n'换行符 (可以使用L.rstrip('\n')去掉换行符)
readlines()的利端:一次性读取,速度较快;readlines()的弊端:随着文本增多,内存占用较大;
最简单、最快速的逐行处理文本的方法:直接for循环文件对象
file= open('test.txt','rU')
try:
for line in file:
do_somthing_with(line)//line带"\n"
finally:
file.close()
博客围绕Python文本处理展开,介绍了文本文件内容读取的三类方法,即read()、readline()、readlines(),分析了它们各自的利弊。如read()方便简单、速度快,但文件过大时占用内存大;还提到直接for循环文件对象是最简单快速的逐行处理文本方法。

被折叠的 条评论
为什么被折叠?



