pandas处理大文件

只要开始永远不晚

已于 2022-02-07 14:09:12 修改

阅读量1k

点赞数 1

分类专栏：工欲善其事必先利其器 # pandas # python 文章标签： python pandas 大文件 pandas处理大文件 chunk

于 2022-01-27 19:21:16 首次发布

本文链接：https://blog.csdn.net/haohaizijhz/article/details/122721065

版权

工欲善其事必先利其器同时被 3 个专栏收录

64 篇文章 30 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

pandas

11 篇文章 0 订阅

订阅专栏

python

5 篇文章 0 订阅

订阅专栏

本文介绍了两种处理大文件的策略：分而治之，通过chunksize和iterator读取部分数据；精简数据，如指定加载列、数据类型和处理空值，以降低内存消耗。提供了解决大文件问题的实用方法。

摘要由CSDN通过智能技术生成

思路一：分而治之

思路二：精简数据

demo

思路一：分而治之

分而治之，分批次加载大文件，每次读取一定行数的数据，读一批处理一批。

此方法简单有效，易实现，但可能适用性不高，因为有些场景就是要加载全部数据。

例如read_csv函数里的参数：chunksize 和 iterator。

chunksize用于指定每次加载的行数。iterator是用于打开获取迭代对象的开关。

官方文档没有实例代码，我会在demo里补充。

官方文档路径：pandas.read_csv — pandas 1.4.0 documentation

思路二：精简数据

1、使用usecols参数按需指定要加载的列，过滤用不到的列，大大降低内存。

2、指定每列数据类型，尽量使用占用字节小的数据类型。【高阶技能】这个另开一篇讲解。pandas的内存使用_Talk is cheap. Show me the code-CSDN博客调用 info() 时会显示 DataFrame 的内存使用情况（包括索引）https://blog.csdn.net/haohaizijhz/article/details/122722847

3、替换愿文件里的空值为默认值，再加载。如果存在空值，容易导致第2步指定的数据类型失效。

can'kaocan'kacan'kcancacpandas空值类型提升 NaN类型提升_Talk is cheap. Show me the code-CSDN博客

此方法第一步简单有效，易实现；第二步比较精细，需要耐心；第三步需要注意，需要时时检查空值情况。

demo

chunksize = 1 * 10 ** 7   # 每1千万行处理一次数据
reader = pd.read_csv(a_BIG_input_file, encoding = 'utf-8', iterator=True, chunksize=chunksize)
chunk_num  = 0
for chunk in reader:
    print("Chunk: " + str(chunk_num) + ' >'*30 + '\n')
    df = chunk
    diy_fun_process_1(df)
    diy_fun_process_1(df)
    chunk_num += 1