Pandas对于大型（上G）数据集的几种读取方式

最新推荐文章于 2023-08-11 17:19:38 发布

蜗牛数据分析

最新推荐文章于 2023-08-11 17:19:38 发布

阅读量609

点赞数

分类专栏：零基础进阶Python数据分析500例文章标签： pandas python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39763247/article/details/130906100

版权

零基础进阶Python数据分析500例专栏收录该内容

6 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

数据分析过程中，有时候接触的数据集会非常大。例如，打算在Kaggle（Kaggle是一个数据建模和数据分析竞赛平台。）竞赛平台上寻找一些数据集来练习，但是发现部分数据集是几G甚至几十G的，如图1所示。

图1 Kaggle数据建模与数据分析平台

针对这种大型数据集如果直接读取可能会造成运行失败或者直接导致系统瘫痪。本实例将使用Pandas对大型数据集进行分批读取，同时介绍几种常用方法供读者学习参考。

例如，笔者从数据库中导出的CSV文件有2G多，如图2所示。

图2 大型CSV文件

分批导入后运行效果如图3和图4所示。由于数据量非常大且篇幅有限，这里仅展示部分数据。从输出结果得知：数据每100万行输出一次。

了解本专栏

超级会员免费看

蜗牛数据分析

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas对于大型（上G）数据集的几种读取方式

在一个CSV文件中往往存在很多列数据，但并不是所有的列都是我们需要的，此时如果将所有的列都读取出来，无疑会减慢数据读取速度。）竞赛平台上寻找一些数据集来练习，但是发现部分数据集是几G甚至几十G的，如图1所示。当刚刚得到一个很大的CSV文件时，迫切想了解数据的情况，此时推荐使用DataFrame对象的head()方法和tail()方法，先查看前5行数据和最后5行数据。说明：head()方法和tail()方法默认是查看5行数据，如果想查看更多的数据可以指定行数，如head(20)，查看前20行数据。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

蜗牛数据分析 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。