python 处理大量数据_如何用python处理大量数据

最新推荐文章于 2024-07-21 09:42:49 发布

小拾1236

最新推荐文章于 2024-07-21 09:42:49 发布

阅读量3.4k

点赞数

文章标签： python 处理大量数据

本文探讨了如何使用Pandas高效处理中等规模数据，避免内存不足。通过选择合适的数据类型，如将数值型列降级和将字符串列转换为类别类型，可以显著减少DataFrame的内存占用。通过实例展示了如何将130年棒球比赛记录数据的内存使用量从861.6MB降至104.28MB，降幅达88%。

摘要由CSDN通过智能技术生成

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。

当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据，我们的愿望是尽量让pandas继续发挥其优势，而不是换用其他工具。

本文我们讨论pandas的内存使用，展示怎样简单地为数据列选择合适的数据类型，就能够减少dataframe近90%的内存占用。

处理棒球比赛记录数据

我们将处理130年的棒球甲级联赛的数据，数据源于

Retrosheet（http://www.retrosheet.org/gamelogs/index.html）

原始数据放在127个csv文件中，我们已经用csvkit

（https://csvkit.readthedocs.io/en/1.0.2/）

（https://data.world/dataquest/mlb-game-logs）

我们从导入数据，并输出前5行开始：

我们将一些重要的字段列在下面：date- 比赛日期

v_name- 客队名

v_league- 客队联赛

h_name- 主队名

h_league- 主队联赛

v_score- 客队得分

h_score- 主队得分

v_line_score- 客队线得分, 如010000(10)00.

h_line_score- 主队线得分, 如010000(10)0X.

park_id- 主办场地的ID

attendance- 比赛出席人数

我们可以用Dataframe.info()方法来获得我们dataframe的一些高level信息，譬如数据量、数据类型和内存使用量。

这个方法默认情况下返回一个近似的内存使用量，现在我们设置参数memory_usage为‘deep’来获得准确的内存使用量：

我们可以看到它有171907行和161列。pandas已经为我们自动检测了数据类型，其中包括83列数值型数据和78列对象型数据。对象型数据列用于字符串或包含混合数据类型的列。

由此我们可以进一步了解我们应该如何减少内存占用，下面我们来看一看pandas如何在内存中存储数据。

Dataframe对象的内部表示

在底层，pandas会按照数据类型将列分组形成数据块（blocks）。下图所示为pandas如何存储我们数据表的前十二列：

最低0.47元/天解锁文章

关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
python 处理大量数据_如何用python处理大量数据

一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质量数据清洗、探索和分析的特性。对于中等规模的数据，我们的愿望是尽...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。