python：Pandas里千万不能做的5件事

最新推荐文章于 2024-08-14 18:22:26 发布

王哈哈er

最新推荐文章于 2024-08-14 18:22:26 发布

阅读量533

点赞数 1

分类专栏： Pandas Python 文章标签： python pandas

原文链接：https://blog.error.work/python/106.html

版权

Python 同时被 2 个专栏收录

58 篇文章 5 订阅

订阅专栏

Pandas

3 篇文章 1 订阅

订阅专栏

本文不再更新，最新链接：https://blog.error.work/python/106.html

作为一个在进入数据分析领域之前干过开发的攻城狮，我看到我的同行以及新手在使用 Pandas 时会犯很多低级错误。

今天我说出这五个坑，让大家别一而再，再而三的掉坑里。

修复这些错误能让你的代码逻辑更清晰，更易读，而且把电脑内存用到极致。

错误1：获取和设置值特别慢

这不能说是谁的错，因为在 Pandas 中获取和设置值的方法实在太多了。
大部分时候，你必须只用索引找到一个值，或者只用值找到索引。
然而，在很多情况下，你仍然会有很多不同的数据选择方式供你支配：索引、值、标签等。
在这些不同的方法中，我当然会更喜欢使用当中最快的那种方式。下面列举最慢到最快的常见选择。比如：
测试数据集运行的是 20000 行的 DataFrame

(for循环的慢是显而易见的，看看.apply() 。我在这里使用它们纯粹是为了证明循环内行的速度差异）

错误2：只使用你电脑 CPU 的四分之一

无论你是在服务器上，还是仅仅是你的笔记本电脑，绝大多数人从来没有使用过他们所有的计算能力。
现在大多数处理器（CPU）都有4核，甚至有的是8核。
重点来了！！
默认情况下，Pandas 只使用其中一个核。

怎么办？
用 Modin！
Modin 是一个 Python 模块，能够通过更好地利用你的硬件来增强 Pandas 的功能。Modin DataFrames 不需要任何额外的代码，在大多数情况下会将你对 DataFrames 所做的一切加速 3 倍或更多。

Modin 的作用更多的是作为一个插件而不是一个库来使用，因为它使用 Pandas 作为后备，不能单独使用。

Modin 的目标是悄悄地增强 Pandas，让你在不学习新库的情况下继续工作。大多数人需要的唯一一行代码是 import modin.pandas as pd 来取代你正常的 import pandas as pd，但如果你想了解更多，请查看这里的文档（https://modin.readthedocs.io/en/latest/）。

为了避免重新创建已经完成的测试，我从 Modin 文档中加入了这张图片，展示了它在标准笔记本上对 read_csv() 函数的加速作用。请注意，Modin 还在开发中，虽然我在生产中使用它，但不可避免会有一些 bug。请查看 Issues in GitHub 和 Supported API 获取更多信息。

错误3：让Pandas消耗内存来猜测数据类型

当你把数据导入到 DataFrame 中，没有特别告诉 Pandas 列和数据类型时，Pandas 会把整个数据集读到内存中，只是为了弄清数据类型而已。

例如，如果你有一列全是文本的数据，Pandas 会读取每一个值，看到它们都是字符串，并将该列的数据类型设置为 “string”。然后它对你的所有其他列重复这个过程。

你可以使用 df.info() 来查看一个 DataFrame 使用了多少内存，这和 Pandas 仅仅为了弄清每一列的数据类型而消耗的内存大致相同。

除非你在折腾很小的数据集，或者你的列是不断变化的，否则你应该总是指定数据类型。

每次指定数据类型是一个好习惯。

为了做到这一点，只需添加 dtypes 参数和一个包含列名及其数据类型的字符串的字典。比如说：

对于不是来自 CSV 的 DataFrames 也同样的适用。

错误4：将DataFrames遗留到内存中

DataFrames 最好的特性之一就是它们很容易创建和改变。但不幸的副作用是，大多数人最终会得到这样的代码：

发生的情况是你把 df2 和 df1 留在 Python 内存中，即使你已经转移到 df3。不要把多余的 DataFrames 留在内存中，如果你使用的是笔记本电脑，它差不多会损害你所做的所有事情的性能。

如果你是在服务器上，它正在损害该服务器上其他所有人的性能（或者在某些时候，你会得到一个 "内存不足 "的错误）。

与之相反的是，这里有一些简单的方法来保持你的内存不超负荷：

使用 df.info() 查看 DataFrame 使用了多少内存。
在 Jupyter 中安装插件支持。安装 Jupyter 的变量检查器插件。如果你习惯于在 R-Studio 中使用变量检查器，那么你应该知道 R-Studio 现在支持 Python了。如果你已经在 Jupyter 会话中，你可以通过使用 della-dreamer 抹去变量而无需重启。
如果您已经在 Jupyter 会话中，您可以随时在不重启的情况下擦除变量，使用 del df2 。
在一行中把多个 DataFrame 修改链在一起（只要不使你的代码不可读）：df = df.apply(something).dropna()
正如国外大牛 Roberto Bruno Martins 指出的，另一种确保内存干净的方法是在函数中执行操作。