【pandas】第四章分组

最新推荐文章于 2024-07-10 19:27:42 发布

阿芒Aris

最新推荐文章于 2024-07-10 19:27:42 发布

阅读量238

点赞数

分类专栏： pandas 文章标签： python pandas Datawhale

本文链接：https://blog.csdn.net/qq_44574333/article/details/111696073

版权

pandas 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

【pandas】第四章分组

Datawhale的pandas学习的开源地址：Joyful Pandas
https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch1.html

欢迎大家关注了解Datawhale ：）

一、分组模式及其对象

1. 分组的一般模式

df.groupby(分组依据)[数据来源].使用操作

2. 分组依据的本质

condition = df.Weight > df.Weight.mean()
df.groupby(condition)['Height'].mean()

3. Groupby对象

gb = df.groupby(['School', 'Grade'])
gb.ngroups ## 分组个数
gb.size()  ## 统计每个组的元素个数
gb.get_group(('Fudan University', 'Freshman')).iloc[:3, :3] # 直接获取所在组对应的行

4. 分组的三大操作

聚合、变换和过滤：agg 、 transform 和 filter

练一练：

def quan_weight(x):
    if x<=quan[0]:return 'low'
    if x<=quan[1]:return 'normal'
    return 'high'
quan = df['体重'].quantile([0.33,0.66]).to_list()
condition = df['体重'].apply(quan_weight)
df.groupby(condition)['身高'].mean()

在这里插入图片描述

二、聚合函数

1. 内置聚合函数

gb = df.groupby('Gender')['Height']
gb.idxmin()
gb.quantile(0.95)

gb = df.groupby('Gender')[['Height', 'Weight']]
gb.max()

2. agg方法

【a】使用多个函数

gb.agg(['sum', 'idxmax', 'skew'])

【b】对特定的列使用特定的聚合函数

gb.agg({'Height':['mean','max'], 'Weight':'count'})

【c】使用自定义函数

gb.agg(lambda x: x.mean()-x.min())

【d】聚合结果重命名
元组的第一个元素为新的名字，第二个位置为原来的函数，包括聚合字符串和自定义函数

 gb.agg([('range', lambda x: x.max()-x.min()), ('my_sum', 'sum')])

三、变换和过滤

1. 变换函数与transform方法

gb.cummax().head()
gb.transform(lambda x: (x-x.mean())/x.std()).head()

2. 组索引与过滤

在原表中通过过滤得到所有容量大于100的组：

gb.filter(lambda x: x.shape[0] > 100).head()

四、跨列分组

apply用法

阿芒Aris

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【pandas】第四章分组

【pandas】第四章分组
复制链接

扫一扫

专栏目录

【pandas】第四章 分组

【pandas】第四章 分组

目录

一、分组模式及其对象

1. 分组的一般模式

2. 分组依据的本质

3. Groupby对象

4. 分组的三大操作

练一练：

二、聚合函数

1. 内置聚合函数

2. agg方法

三、变换和过滤

1. 变换函数与transform方法

2. 组索引与过滤

四、跨列分组

“相关推荐”对你有帮助么？

【pandas】第四章分组

【pandas】第四章分组