前言
Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活。《Python for Data Analysis》这本书第9章详细的介绍了这方面的用法,但是有些细节不常用就容易忘记,遂打算把书中这部分内容总结在博客里,以便复习查看。根据书中的章节,这部分知识包括以下四部分:
1.GroupBy Mechanics(groupby技术)
2.Data Aggregation(数据聚合)
3.Group-wise Operation and Transformation(分组级运算和转换)
4.Pivot Tables and Cross-Tabulation(透视表和交叉表)
本文是第一部分,介绍groupby技术。
一、分组原理
核心:
1.不论分组键是数组、列表、字典、Series、函数,只要其与待分组变量的轴长度一致都可以传入groupby进行分组。
2.默认axis=0按行分组,可指定axis=1对列分组。
对数据进行分组操作的过程可以概括为:split-apply-combine三步:
1.按照键值(key)或者分组变量将数据分组。
2.对于每组应用我们的函数,这一步非常灵活,可以是python自带函数,可以是我们自己编写的函数。
3.将函数计算后的结果聚合。
图1:分组聚合原理(图片来自《Python for Data Analysis》page 252)
importpandas as pdimportnumpy as np
df=