文章目录
1. 分组模式及其对象
1.1 分组的一般模式
df.groupby(分组依据)[数据来源].使用操作
实例df.groupby('Gender')['Height'].mean()
-
单一维度分组
df.groupby('Gender')['Height'].mean()
-
多维度分组
df.groupby(['School', 'Gender'])['Height'].mean()
-
复杂逻辑分组
df.groupby(df.Weight > df.Weight.mean())['Height'].mean()
1.2 Groupby对象
gb = df.groupby(['School', 'Grade'])
gb.ngroups
,分组个数gb.groups
,返回从组名组名映射到组索引列表组索引列表的字典gb.size()
,统计每个组的元素个数gb.get_group(('values1','values2'))
,获取所在组对应的行
1.3 分组的三大操作
分组的三大操作:聚合、变换和过滤(agg、
transform和
filter)
- 依据性别性别分组,统计全国人口寿命寿命的平均值平均值,每一个组返回一个标量值
- 依据季节季节分组,对每一个季节的温度温度进行组内标准化组内标准化,每组返回的是一个
Series
类型 - 依据班级班级筛选出组内数学分数数学分数的平均值超过80