pandas处理大文件

本文介绍了两种处理大文件的策略:分而治之,通过chunksize和iterator读取部分数据;精简数据,如指定加载列、数据类型和处理空值,以降低内存消耗。提供了解决大文件问题的实用方法。
摘要由CSDN通过智能技术生成

目录

思路一:分而治之

思路二:精简数据

demo


思路一:分而治之

分而治之,分批次加载大文件,每次读取一定行数的数据,读一批处理一批。

此方法简单有效,易实现,但可能适用性不高,因为有些场景就是要加载全部数据。

例如read_csv函数里的参数:chunksize 和 iterator。

chunksize用于指定每次加载的行数。iterator是用于打开获取迭代对象的开关。

官方文档没有实例代码,我会在demo里补充。

官方文档路径:pandas.read_csv — pandas 1.4.0 documentation

思路二:精简数据

1、使用usecols参数按需指定要加载的列,过滤用不到的列,大大降低内存。

2、指定每列数据类型,尽量使用占用字节小的数据类型。【高阶技能】这个另开一篇讲解。pandas的内存使用_Talk is cheap. Show me the code-CSDN博客调用 info() 时会显示 DataFrame 的内存使用情况(包括索引)https://blog.csdn.net/haohaizijhz/article/details/122722847

3、替换愿文件里的空值为默认值,再加载。如果存在空值,容易导致第2步指定的数据类型失效。

​​​​​​​​​​​​​​can'kaocan'kacan'kcancacpandas空值类型提升 NaN类型提升_Talk is cheap. Show me the code-CSDN博客

此方法第一步简单有效,易实现;第二步比较精细,需要耐心;第三步需要注意,需要时时检查空值情况。

demo

chunksize = 1 * 10 ** 7   # 每1千万行处理一次数据
reader = pd.read_csv(a_BIG_input_file, encoding = 'utf-8', iterator=True, chunksize=chunksize)
chunk_num  = 0
for chunk in reader:
    print("Chunk: " + str(chunk_num) + ' >'*30 + '\n')
    df = chunk
    diy_fun_process_1(df)
    diy_fun_process_1(df)
    chunk_num += 1

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只要开始永远不晚

谢谢打赏~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值