Pandas分组聚合语法:
df [Condition1] .groupby ([Column1, Column2], as_index=False) .agg({Column3: "mean", Column4:"sum"}) .filter(Condition2)
一、groupby分组
我们可以通过groupby方法来对Series或DataFrame对象实现分组操作。该方法会返回一个分组对象。不过,如果直接查看(输出)该对象,并不能看到任何的分组信息。groups(属性):返回一个字典类型对象,包含分组信息。
size:返回每组记录的数量。
discribe:分组查看统计信息。
Splitting: 把数据按主键划分为很多个小组
Applying: 对每个小组独立地使用函数
Combining: 把所得到的结果组合
Splitting 由 groupby 实现
Applying 由 agg、apply、transform、filter实现具体的操作
Combining 由 concat 等实现
![8486ca3a03181f0e27b9eddaa1ddcd44.png](https://i-blog.csdnimg.cn/blog_migrate/6da6f761b96bb9865ab3e817f46a294a.png)
Aggregation:做一些统计性的计算
Apply:做一些数据转换
Transformation:做一些数据处理方面的变换
Filtration:做一些组级别的过滤
- count------------分组中非NA值的数量
- sum--------------非NA值的和
- mean-------------非NA值的平均值
- median ----------非NA值的算术中位数
- std、var---------无偏(分母为n-1)标准差、方差
- min、max---------非NA值的最小值、最大值
- prod-------------非NA值的积
- first、last------第一个和最后一个非NA值