python大文件操作

我们知道python进行数据处理时有相应的库,此篇只是针对python标准库中file文件操作中的read,readline,readlines等进行介绍


我们使用file读取文件时常看到直接使用read(),readlines()等一次性把文件读取完毕,这样对小文件来说当然可以,但是对于大文件来说就可能会出现内存泄漏的问题。

当默认参数size=-1时,read方法会读取直到EOF,当文件大小大于可用内存时,自然会发生内存溢出的错误。
read方法

同样的,readlines会构造一个list。list而不是iter,所以所有的内容都会保存在内存之上,同样也会发生内存溢出的错误。
readlines方法

正确的用法

如果是二进制文件推荐用如下这种写法,可以自己指定缓冲区有多少byte。显然缓冲区越大,读取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            执行操作
        else:
            break

而如果是文本文件,则可以用readline方法或直接迭代文件(python这里封装了一个语法糖,二者的内生逻辑一致,不过显然迭代文件的写法更pythonic ,每次读取一行,效率是比较低的。笔者简单测试了一下,在3G文件之下,大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break

with open(file_path, 'rb') as f:
    for line in f:
        print(line)

还可以将readline替换成readlines(),增加一次读取的行数

with open(file_path, 'rb') as f:
    while True:
        # 参数表示一次读取指定size的行数,函数会自动读取整行,所以大小不会很精确
        line = f.readlines(102400)
        if buf:    
            print(line)
        else:
            break

最后:其实我们用file处理超大文件的频率很小,平时我们操作小文件时可以一次性读取,因为频繁操作文件也是耗时操作,这里的取舍要根据实际情况来看。像上面循环读取文件,我们可以使用yield来迭代结果,减小内存消耗。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值