高级处理-分组与聚合
分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况
想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:
什么是分组与聚合
数据分析中,常常需要把数据量相对较大的数据分成若干各组,然后分别对小的组中的数据做统计分析操作,比如说分析员工工资状况与员工的性别/入职年份/部分之间的关系时。
分组与聚合的内部过程:分组 -> 统计得出每一个小的组的统计值 -> 合并成最终结果
分组与聚合API
DataFrame.groupby()
,生成 DataFrameGroupBySeries.groupby()
,生成 SeriesGroupBy
通过DataFrame来做groupby相对方便一些,因为只需要传分组依据所在的列的名称即可
- DataFrame.groupby(key, as_index=False)
- key:分组的列数据,可以多个
- 案例:不同颜色的不同笔的价格数据
data =pd.DataFrame({
'color': ['white'