pandas如何将小数转为百分数_简单实用的pandas技巧:如何将内存占用降低90%

本文介绍了如何使用pandas优化内存占用,特别是针对大规模数据。通过转换数据类型,如将小数转为百分比,以及使用category类型,可以显著降低数据帧的内存使用,甚至减少近90%。文章还讨论了pandas的内部表示、数值和字符串存储,并提供了实际的优化步骤和示例。
摘要由CSDN通过智能技术生成
72e5978f80d8548663ca2d65b7b10c88.png

文章选自DATAQUEST

作者:Josh Devlin

原文链接:https://www.dataquest.io/blog/pandas-big-data/

本篇有点长,请大家耐心看完,帮助很大~

pandas 是一个 Python 软件库,可用于数据操作和分析。数据科学博客发布了一篇关于如何优化 pandas 内存占用的教程:仅需进行简单的数据类型转换,就能够将一个棒球比赛数据集的内存占用减少了近 90%。

当使用 pandas 操作小规模数据(低于 100 MB)时,性能一般不是问题。而当面对更大规模的数据(100 MB 到数 GB)时,性能问题会让运行时间变得更漫长,而且会因为内存不足导致运行完全失败。

da93452625877f174f5ec79d247f2532.png

非诚勿扰:正在学习python的小伙伴或者打算学习的,可以私信小编“01”领取资料!

尽管 Spark 这样的工具可以处理大型数据集(100 GB 到数 TB),但要完全利用它们的能力,往往需要更加昂贵的硬件。而且和 pandas 不同,它们缺少丰富的用于高质量数据清理、探索和分析的功能集。对于中等规模的数据,我们最好能更充分地利用 pandas,而不是换成另一种工具。

在这篇文章中,我们将了解 pandas 的内存使用,以及如何只需通过为列选择合适的数据类型就能将 dataframe 的内存占用减少近 90%。

6d506339f0408d9d781c7a39e2939b0d.png

处理棒球比赛日志

我们将处理 130 年之久的美国职业棒球大联盟(MLB)比赛数据

这些数据来自 Retrosheet:https://www.retrosheet.org/gamelogs/index.html

这些数据原来分成了 127 个不同的 CSV 文件,但我们已经使用 csvkit 合并了这些数据,并在第一行增加了列名称。如果你想下载本文所用的这个数据版本

请访问:https://data.world/dataquest/mlb-game-logs

让我们首先导入数据,并看看其中的前五行:

import pandas as pdgl = pd.read_csv('game_logs.csv')gl.head()

下面我们总结了一些重要的列,但如果你想了解所有的列,我们也为整个数据集创建了一个数据词典:https://data.world/dataquest/mlb-game-logs/workspace/data-dictionary

date - 比赛时间v_name - 客队名v_league - 客队联盟h_name - 主队名h_league - 主队联盟v_score - 客队得分h_score - 主队得分v_line_score - 客队每局得分排列,例如: 010000(10)00.h_line_score - 主队每局得分排列,例如: 010000(10)0X.park_id - 比赛举办的球场名attendance- 比赛观众

我们可以使用 DataFrame.info() 方法为我们提供关于 dataframe 的高层面信息,包括它的大小、数据类型的信息和内存使用情况。

默认情况下,pandas 会近似 dataframe 的内存用量以节省时间。因为我们也关心准确度,所以我们将 memory_usage 参数设置为 'deep',以便得到准确的数字。

gl.info(memory_usage='deep')
RangeIndex: 171907 entries, 0 to 171906Columns: 161 entries, date to acquisition_infodtypes: float64(77), int64(6), object(78)memory usage: 861.6 MB

我们可以看到,我们有 171,907 行和 161 列。pandas 会自动为我们检测数据类型,发现其中有 83 列数据是数值,78 列是 object。object 是指有字符串或包含混合数据类型的情况。

为了更好地理解如何减少内存用量,让我们看看 pandas 是如何将数据存储在内存中的。

dataframe 的内部表示

在 pandas 内部,同样数据类型的列会组织成同一个值块(blocks of values)。这里给出了一个示例,说明了 pandas 对我们的 dataframe 的前 12 列的存储方式。

0bffd1e08e8634209239e307210171a8.png

你可以看到这些块并没有保留原有的列名称。这是因为这些块为存储 dataframe 中的实际值进行了优化。pandas 的 Block

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值