pandas分批读取CSV并分批处理数据

程序媛三妹

已于 2022-05-22 10:45:34 修改

阅读量2.5k

点赞数 1

分类专栏：三妹的工作日常 Pandas 文章标签： pandas CSV处理内存管理大数据分批读取

于 2022-05-22 10:44:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011675334/article/details/124907788

版权

三妹的工作日常同时被 2 个专栏收录

60 篇文章 11 订阅

订阅专栏

30 篇文章 5 订阅

订阅专栏

算法工程师要面对的一大主要矛盾：不够用的服务器内存和巨大的训练集数据量之间的矛盾。

如果使用pandas处理CSV数据，会先把整个CSV加载到内存之后再处理，所以如果你的CSV文件巨大（其实也不一定非常大，我的数据集只有4、50个G，可惜当时服务器内存只有60多个G了），就要想其他方法了。

我之前都是把CSV文件手动切分成10个小文件，再逐个处理。

现在觉着这方法太傻了啊。

其实pandas 读取CSV文件的函数 read_csv() 中自带两个参数就可以解决：

nrows=
skiprows=

其中前者控制本次读取多少行，后者用于控制跳过多少行然后从其下一行开始读。

这样每次就只读取 nrows 行数据加载到内存，先处理这部分数据，处理完之后再去加载下一批。

备注：

如果最后一个分组不够 nrows 的参数值也不会报错，会把剩余部分当做一个分组。比如CSV文件中有5行数据，每次读两行数据，即 nrows=2，最后只剩下一行，就把这一行当做一组。

以上，问题解决~

程序媛三妹

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。