Python 读入大文件（几GB的tsv）采用分块可提高效率

最新推荐文章于 2022-12-10 14:13:30 发布

Dragon Wu

最新推荐文章于 2022-12-10 14:13:30 发布

阅读量630

点赞数

分类专栏：数据挖掘 python 文章标签： python 数据挖掘数据分析开发语言

本文链接：https://blog.csdn.net/qq_50909707/article/details/122394559

版权

python 同时被 2 个专栏收录

35 篇文章 6 订阅

订阅专栏

数据挖掘

22 篇文章 4 订阅

订阅专栏

with open分块代码如下：

    with open(res.FILE_PATH['06'], 'r', encoding="gb18030", errors="ignore") as file:
        csv.field_size_limit(500 * 1024 * 1024)
        data = pd.DataFrame(csv.reader(file.readlines(500*1024*300), delimiter="\t"))                 
    #13.57667350769043

读取不到50W条数据用时13.6秒，略慢。

于是我改用pandas的read_csv()方法的分块处理：

    data=pd.read_csv(res.FILE_PATH['06'],sep="\t",encoding="gb18030",chunksize=500*1024)
    for chunk in data:
        print(chunk)
    #10.774301290512085

分块出我想要的数据仅用了不到11秒，读取了51W条数据，效果较好。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Dragon Wu

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 读入大文件（几GB的tsv）采用分块可提高效率

最近对取一个几GB的tsv文件时发现特别的慢，代码如下： with open(res.FILE_PATH['06'], 'r', encoding="gb18030", errors="ignore") as file: csv.field_size_limit(500 * 1024 * 1024) data = pd.DataFrame(csv.reader(file.readlines(500000000), delimiter="\t"))
复制链接

扫一扫