python大文件操作

最新推荐文章于 2024-05-27 04:15:00 发布

TEL.沐小北

最新推荐文章于 2024-05-27 04:15:00 发布

阅读量1.1k

点赞数

分类专栏： python理论加强文章标签： python

本文链接：https://blog.csdn.net/qq_36217796/article/details/86739459

版权

python理论加强专栏收录该内容

7 篇文章 2 订阅

订阅专栏

我们知道python进行数据处理时有相应的库，此篇只是针对python标准库中file文件操作中的read,readline,readlines等进行介绍

我们使用file读取文件时常看到直接使用read(),readlines()等一次性把文件读取完毕，这样对小文件来说当然可以，但是对于大文件来说就可能会出现内存泄漏的问题。

当默认参数size=-1时，read方法会读取直到EOF，当文件大小大于可用内存时，自然会发生内存溢出的错误。

同样的，readlines会构造一个list。list而不是iter，所以所有的内容都会保存在内存之上，同样也会发生内存溢出的错误。

正确的用法

如果是二进制文件推荐用如下这种写法，可以自己指定缓冲区有多少byte。显然缓冲区越大，读取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            执行操作
        else:
            break

而如果是文本文件，则可以用readline方法或直接迭代文件（python这里封装了一个语法糖，二者的内生逻辑一致，不过显然迭代文件的写法更pythonic ，每次读取一行，效率是比较低的。笔者简单测试了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break

with open(file_path, 'rb') as f:
    for line in f:
        print(line)

还可以将readline替换成readlines()，增加一次读取的行数

with open(file_path, 'rb') as f:
    while True:
        # 参数表示一次读取指定size的行数，函数会自动读取整行，所以大小不会很精确
        line = f.readlines(102400)
        if buf:    
            print(line)
        else:
            break

最后：其实我们用file处理超大文件的频率很小，平时我们操作小文件时可以一次性读取，因为频繁操作文件也是耗时操作，这里的取舍要根据实际情况来看。像上面循环读取文件，我们可以使用yield来迭代结果，减小内存消耗。

TEL.沐小北

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python大文件操作

我们知道python进行数据处理时有相应的库，此篇只是针对python标准库中file文件操作中的read,readline,readlines等进行介绍我们使用file读取文件时常看到直接使用read(),readlines()等一次性把文件读取完毕，这样对小文件来说当然可以，但是对于大文件来说就可能会出现内存泄漏的问题。当默认参数size=-1时，read方法会读取直到EOF，当文件大...
复制链接

扫一扫