python-problem-大文件的读取

最新推荐文章于 2022-11-25 10:39:59 发布

毛球饲养员

最新推荐文章于 2022-11-25 10:39:59 发布

阅读量426

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012442157/article/details/78057369

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

python读取大文件

一.问题

博主在使用glove840b词向量的时候，遇到的一些坑。这个词向量大概有5.25个G容量，并且我需要按照行来进行处理。然后我直接用了

f = open(path,encoding="utf-8").readlines()

然后内存就炸了。我可是16G的内存呢。

二.对比几种读文件的方法

1.with

with open(path, encoding="utf-8") as f:
    for line in f:
        dosomething()

只占用4.6M内存
注意这种方法每一行最后会有一个’\n’

There should be one – and preferably only one – obvious way to do it.

2.直接遍历

f = open(path, encoding="utf-8")
for line in f:
    dosomething()

只占用4.6M内存
注意这种方法每一行最后会有一个’\n’
这里我想说用with和直接每次读一行进行遍历，实际上是一样的效果的。只是with有一些好处，我打算下一章专门写一下with。先举个列子，用with，就不用在读文件结束的时候写f.close()了。

3.使用readlines()

f = open(path, encoding="utf-8").readlines()
for line in f:
    dosomething()

这种方法会把整个文件一次性加载在内存中，对于小文件来说，处理起来，速度会更快。
但是加载5.25的G的文本的时候，内存直接就爆满了。

4.使用yield配合readline

三.总结

尽量使用with的方法吧。
但是如果文章真的不是很大的话，或者内存足够大的话，还是用readlines比较好，速度能够提升好多。可以具体比较一下。

参考
https://stackoverflow.com/questions/8009882/how-to-read-large-file-line-by-line-in-python

毛球饲养员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-problem-大文件的读取

python读取大文件问题博主在使用glove840b词向量的时候，遇到的一些坑。这个词向量大概有5.25个G容量，并且我需要按照行来进行处理。然后我直接用了f = open(path,encoding="utf-8").readlines()然后内存就炸了。我可是16G的内存呢。对比几种读文件的方法1.withwith open(path, encoding="utf-8") as f:
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。