聚合指的是任何能够从数组产生标量值的数据转换过程,比如mean、count、min以及sum等函数。你可能想知道在GroupBy对象上调用mean()时究竟发生了什么。许多常见的聚合运算都有进行优化。然而,除了这些方法,你还可以使用其它的。下表是经过优化的groupby方法:
函数名 | 说明 |
count | 分组中非NA值的数量 |
sum | 非NA值的和 |
mean | 非NA值的平均值 |
median | 非NA值的算数中位数 |
std、var | 无偏标准差和方差 |
min、max | 非NA值的最小值和最大值 |
prod | 非NA值的积 |
first、last | 第一个和最后一个非NA值 |
1. groupby的聚合函数
例如:使用groupby聚合函数对数据进行统计分析。
首先创建一个dataframe对象:
关键技术:采用describe()函数求各种统计值:
关键技术:采用mean()函数求均值:
关键技术:采用count()和size()函数求计数:
关键技术:size跟count的区别是:size计数时包含NaN值,而count不包含NaN值。count() 计算的是 value(数值); size() 计算的是 size(个数)。
例如:agg()函数对数据集进行聚合操作。
关键技术:采用agg()函数进行聚合操作。agg函数也是我们使用pandas进行数据分析过程中,针对数据分组常用的一条函数。如果说用groupby进行数据分组,可以看做是基于行(或者说是index)操作的话,则agg函数则是基于列的聚合操作。
首先建立例数据集:
采用agg()函数计算各个城市的求和与均值:
采用agg()函数针对不同的城市,使用不同的聚合函数: