目录
第一部分:pandas聚合统计
一.数据聚合
数据聚合就是在对数据进行完分组.groupby()操作后进行的运算,如.mean()和.sum() 等。聚合函数除了内置的sum(), min(), max(), mean() 等等之外,还可以自定义聚合函数。自定义聚合函数时,使用 agg() 或 aggregate() 函数。
1.自定义聚合函数agg():
例:对于df按照key1进行分组,并求每组数据的波动范围:
def peak(s):
return s.max() - s.min()
grouped = df.groupby('key1').agg(peak_verbose)
2.应用多个聚合函数:
.agg([函数1,(名字2,函数2)])即可应用多个聚合函数,元组的形式可以对列进行重命名。
grouped.agg([('agerage', 'mean'), ('max-range', peak)])
3.给不同的列应用不同的聚合函数:使用字典dict来实现
d = {
'data1': ['mean', ('max-range',peak), 'max', 'min'],'data2': 'sum'}
grouped.agg