Pandas分类总结之：分组

最新推荐文章于 2024-04-26 13:49:44 发布

Seven_0507

最新推荐文章于 2024-04-26 13:49:44 发布

阅读量1.5k

点赞数

分类专栏：数据分析与数据科学文章标签：数据分析 pandas

本文链接：https://blog.csdn.net/KEEP_GIONG/article/details/120066280

版权

8 篇文章 1 订阅

订阅专栏

1. 分组模式及其对象

df.groupby(分组依据)[数据来源].使用操作 实例df.groupby('Gender')['Height'].mean()

gb = df.groupby(['School', 'Grade'])

分组的三大操作：聚合、变换和过滤（agg、transform和filter）

内置聚合函数max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod

聚合函数当传入的数据来源包含多个列时，将按照列进行迭代计算

gb = df.groupby('Grade')[['Height', 'Weight']]

gb.agg(['sum', 'idxmax', 'skew'])，同时使用多个聚合函数；用列表的形式把内置聚合函数对应的字符串传入
gb.agg({'Height':['mean','max'], 'Weight':'count'})，对特定的列使用特定的聚合函数；以列名为键，以聚合字符串或字符串列表为值
使用自定义的聚合函数
- gb.agg(lambda x: x.mean()-x.min())，需要注意传入函数的参数是之前数据源中的列，逐列进行计算
- gb.agg(my_func)
对聚合结果的列名进行自定义命名
- gb.agg([('range', lambda x: x.max()-x.min()), ('my_sum', 'sum')])，函数的位置改写成元组，元组的第一个元素为新的名字，第二个位置为原来的函数
- gb.agg({'Height': [('my_func', my_func), 'sum'], 'Weight': [('range', lambda x:x.max())]})，对一个或者多个列使用单个聚合的时候，重命名需要加方括号，例如“Weight”

内置变换函数是累计函数：cumcount/cumsum/cumprod/cummax/cummin，变换函数的返回值为同长度的序列，完成的是组内累计操作
gb.transform(lambda x: (x-x.mean())/x.std())，用自定义变换时需要使用transform方法，被调用的自定义函数，其传入值为数据源的序列，其最后的返回结果是行列索引与数据源一致的DataFrame

过滤在分组中是对于组的过滤，而索引是对于行的过滤

解决多列数据同时处理的计算

返回标量

def BMI(x):
    Height = x['Height']/100
    Weight = x['Weight']
    BMI_value = Weight/Height**2
    return BMI_value.mean()
gb.apply(BMI)

关注