前言
“split-apply-combine”(拆分-应用-合并)很好地描述了分组运算的整个过程。
分组运算的第一个阶段,pandas对象(无论是Series、DataFrame还是其他的)中的数据会根据所提供的一个或多个键被拆分(split)为多组。
拆分操作是在对象的特定轴上执行的。例如,DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。
然后,将一个函数应用(apply)到各个分组并产生一个新值。
最后,所有这些函数的执行结果会被合并(combine)到最终的结果对象中。结果对象的形式一般取决于数据上所执行的操作。
下图,大致说明了一个简单的分组聚合过程:
分组键
分组键可以有多种形式,且类型不必相同:
- 列表或数组,其长度与待分组的轴一样。</