分享 5 个高效的 pandas 函数！

Python老猿

已于 2024-01-24 21:42:55 修改

阅读量254

点赞数

文章标签： pandas python 数据分析机器学习数据挖掘

于 2023-05-18 11:53:37 首次发布

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/130743428

版权

1. explode

explode 用于将一行数据展开成多行。比如说 dataframe 中某一行其中一个元素包含多个同类型的数据，若想要展开成多行进行分析，这时候 explode 就派上用场，而且只需一行代码，非常节省时间。

用法：

DataFrame.explode(self, column: Union[str, Tuple])

参数作用：

column ：str 或 tuple

以下表中第三行、第二列为例，展开 [2,3,8]：

# 先创建表
id = ['a','b','c']
measurement = [4,6,[2,3,8]]
day = [1,1,1]
df1 = pd.DataFrame({'id':id, 'measurement':measurement, 'day':day})
df1

使用 explode 轻松将 [2,3,8] 转换成多行，且行内其他元素保持不变。

df1.explode('measurement').reset_index(drop=True)

2. Nunique

Nunique 用于计算行或列上唯一值的数量，即去重后计数。这个函数在分类问题中非常实用，当不知道某字段中有多少类元素时，Nunique 能快速生成结果。

用法：

Series.nunique(dropna=True)
# 或者
DataFrame.nunique(axis=0, dropna=True)

参数作用：

axis：int 型，0 代表行，1 代表列，默认 0；
dropna：bool 类型，默认为 True，计数中不包括 NaN；

先创建一个 df：

values_1 = np.random.randint(10, size=10)
values_2 = np.random.randint(10, size=10)
years = np.arange(2010,2020)
groups = ['A','A','B','A','B','B','C','A','C','C']
df = pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2})
df

对 year 列进行唯一值计数：

df.year.nunique()

输出：10 对整个 dataframe 的每一个字段进行唯一值计数：

df.nunique()

3. infer_objects

infer_objects 用于将 object 类型列推断为更合适的数据类型。

用法：

# 直接将df或者series推断为合适的数据类型
DataFrame.infer_objects()

pandas 支持多种数据类型，其中之一是 object 类型。object 类型包括字符串和混合值（数字及非数字）。

object 类型比较宽泛，如果可以确定为具体数据类型，则不建议用 object。

df = pd.DataFrame({"A": ["a", 1, 2, 3]})
df = df.iloc[1:]
df

df.dtypes

使用 infer_objects 方法将 object 推断为 int 类型：

df.infer_objects().dtypes

4. memory_usage

memory_usage 用于计算 dataframe 每一列的字节存储大小，这对于大数据表非常有用。

用法：

DataFrame.memory_usage(index=True, deep=False)

参数解释：
index：指定是否返回 df 中索引字节大小，默认为 True，返回的第一行即是索引的内存使用情况；
deep：如果为 True，则通过查询 object 类型进行系统级内存消耗来深入地检查数据，并将其包括在返回值中。

首先创建一个 df，共 2 列，1000000 行。

df_large = pd.DataFrame({'A': np.random.randn(1000000),
                    'B': np.random.randint(100, size=1000000)})
df_large.shape

返回每一列的占用字节大小：

df_large.memory_usage()

第一行是索引 index 的内存情况，其余是各列的内存情况。

5. replace

顾名思义，replace 是用来替换 df 中的值，赋以新的值。

用法：

DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')

参数解释：

to_replace：被替换的值
value：替换后的值
inplace：是否要改变原数据，False 是不改变，True 是改变，默认是 False
limit：控制填充次数
regex：是否使用正则，False 是不使用，True 是使用，默认是 False
method：填充方式，pad,ffill,bfill 分别是向前、向前、向后填充

创建一个 df：

values_1 = np.random.randint(10, size=10)
values_2 = np.random.randint(10, size=10)
years = np.arange(2010,2020)
groups = ['A','A','B','A','B','B','C','A','C','C']
df = pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2})
df

将 A 全部替换为 D：

df.replace('A','D')

将 B 替换为 E，C 替换为 F：

df.replace({'B':'E','C':'F'})

这里给大家分享一份Python全套学习资料，包括学习路线、软件、源码、视频、面试题等等，都是我自己学习时整理的，希望可以对正在学习或者想要学习Python的朋友有帮助！

CSDN大礼包：全网最全《全套Python学习资料》免费分享🎁

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

👉CSDN大礼包🎁：全网最全《Python学习资料》免费分享（安全链接，放心点击）👈

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

② 路线对应学习视频

还有很多适合0基础入门的学习视频，有了这些视频，轻轻松松上手Python~ 在这里插入图片描述

③练习题

每节视频课后，都有对应的练习题哦，可以检验学习成果哈哈！
在这里插入图片描述
因篇幅有限，仅展示部分资料

2️⃣国内外Python书籍、文档

① 文档和书籍资料

在这里插入图片描述

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了！每个都有详细的安装教程，保证你可以安装成功哦！
在这里插入图片描述

②Python实战案例

光学理论是没用的，要学会跟着一起敲代码，动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。100+实战案例源码等你来拿！
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥，可以试试自己用Python编写小游戏，让你的学习过程中增添一点趣味！
在这里插入图片描述

4️⃣Python面试题

我们学会了Python之后，有了技能就可以出去找工作啦！下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述

5️⃣Python兼职渠道

而且学会Python以后，还可以在各大兼职平台接单赚钱，各种兼职渠道+兼职注意事项+如何和客户沟通，我都整理成文档了。
在这里插入图片描述

上述所有资料 ⚡️ ，朋友们如果有需要 📦《全套Python学习资料》的，可以扫描下方二维码免费领取 🆓
😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓