pandas如何将小数转为百分数_简单实用的pandas技巧：如何将内存占用降低90%-CSDN博客

本文链接：https://blog.csdn.net/weixin_36462532/article/details/112456671

本文介绍了如何使用pandas优化内存占用，特别是针对大规模数据。通过转换数据类型，如将小数转为百分比，以及使用category类型，可以显著降低数据帧的内存使用，甚至减少近90%。文章还讨论了pandas的内部表示、数值和字符串存储，并提供了实际的优化步骤和示例。

摘要由CSDN通过智能技术生成

文章选自DATAQUEST

作者：Josh Devlin

原文链接：https://www.dataquest.io/blog/pandas-big-data/

本篇有点长，请大家耐心看完，帮助很大~

pandas 是一个 Python 软件库，可用于数据操作和分析。数据科学博客发布了一篇关于如何优化 pandas 内存占用的教程：仅需进行简单的数据类型转换，就能够将一个棒球比赛数据集的内存占用减少了近 90%。

当使用 pandas 操作小规模数据(低于 100 MB)时，性能一般不是问题。而当面对更大规模的数据(100 MB 到数 GB)时，性能问题会让运行时间变得更漫长，而且会因为内存不足导致运行完全失败。

非诚勿扰：正在学习python的小伙伴或者打算学习的，可以私信小编“01”领取资料！

尽管 Spark 这样的工具可以处理大型数据集(100 GB 到数 TB)，但要完全利用它们的能力，往往需要更加昂贵的硬件。而且和 pandas 不同，它们缺少丰富的用于高质量数据清理、探索和分析的功能集。对于中等规模的数据，我们最好能更充分地利用 pandas，而不是换成另一种工具。

在这篇文章中，我们将了解 pandas 的内存使用，以及如何只需通过为列选择合适的数据类型就能将 dataframe 的内存占用减少近 90%。

处理棒球比赛日志

我们将处理 130 年之久的美国职业棒球大联盟(MLB)比赛数据

这些数据来自 Retrosheet：https://www.retrosheet.org/gamelogs/index.html

这些数据原来分成了 127 个不同的 CSV 文件，但我们已经使用 csvkit 合并了这些数据，并在第一行增加了列名称。如果你想下载本文所用的这个数据版本

请访问：https://data.world/dataquest/mlb-game-logs

让我们首先导入数据，并看看其中的前五行：

import pandas as pdgl = pd.read_csv('game_logs.csv')gl.head()

下面我们总结了一些重要的列，但如果你想了解所有的列，我们也为整个数据集创建了一个数据词典：https://data.world/dataquest/mlb-game-logs/workspace/data-dictionary

date - 比赛时间v_name - 客队名v_league - 客队联盟h_name - 主队名h_league - 主队联盟v_score - 客队得分h_score - 主队得分v_line_score - 客队每局得分排列，例如： 010000(10)00.h_line_score - 主队每局得分排列，例如： 010000(10)0X.park_id - 比赛举办的球场名attendance- 比赛观众

我们可以使用 DataFrame.info() 方法为我们提供关于 dataframe 的高层面信息，包括它的大小、数据类型的信息和内存使用情况。

默认情况下，pandas 会近似 dataframe 的内存用量以节省时间。因为我们也关心准确度，所以我们将 memory_usage 参数设置为 'deep'，以便得到准确的数字。

gl.info(memory_usage='deep')

RangeIndex: 171907 entries, 0 to 171906Columns: 161 entries, date to acquisition_infodtypes: float64(77), int64(6), object(78)memory usage: 861.6 MB

我们可以看到，我们有 171,907 行和 161 列。pandas 会自动为我们检测数据类型，发现其中有 83 列数据是数值，78 列是 object。object 是指有字符串或包含混合数据类型的情况。

为了更好地理解如何减少内存用量，让我们看看 pandas 是如何将数据存储在内存中的。

dataframe 的内部表示

在 pandas 内部，同样数据类型的列会组织成同一个值块(blocks of values)。这里给出了一个示例，说明了 pandas 对我们的 dataframe 的前 12 列的存储方式。

你可以看到这些块并没有保留原有的列名称。这是因为这些块为存储 dataframe 中的实际值进行了优化。pandas 的 Block