1.分组与聚合的原理
在Pandas中:
分组:
指使用特定的条件将原数据划分为多个组;
聚合:
对每个分组中的数据执行某些操作,最后将计算的结果进行整合。
1.2分组与聚合的过程分为三步
1.2.1拆分
将数据集按照些标准拆分为若干个组。split拆分方法
1.2.2应用
将某个函数或方法(内置和自定义均可)应用到每个分组。apply方法应用
1.2.3合并
将产生的新值整合到结果对象中。combine方法整合
2. 通过groupby()方法将数据拆分成组
在Pandas中,可以通过groupby()方法将数据集按照某些标准划分成若干个组。
2.1 groupby()方法
Hadley Wickham创造了一个用于表示分组运算的术语“split—apply—combine”(拆分—应用—合并),分组运算第一阶段,pandas对象中的数据会根据你所提供的一个或多个键被拆分
(split)为多组,拆分操作是在对象特定轴上执行的。例如:DataFrame可以在其行(axis = 0)或者列(axis =1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。最后,所有这些函数的执行结果会被合并(combine)到最终结果对象中。
分组键可以有多种形式&#