Pandas使用groupby分组后的操作
size()求每个分组的行数量
data_year = data.groupby(['Year']).size().reset_index()
mean(),min(),max(),sum(),var(),std()
mean(),min(),max(),sum()统计每个组对应列的平均值,最小值,最大值,和,方差,标准差
例:
data_year = data.groupby(['Year']).min().reset_index()
任意聚合agg()
传入min,max,sum,‘mean’,‘var’, 'std’类似于上面效果。对不同分组,不同列进行统计操作。
data_year = data.groupby(['Year']).agg(sum).reset_index()
传入多个值,返回一个多索引的dataframe
data_year = data.groupby(['Year']).agg([min,max]).reset_index()
传入字典,列名为键,操作为值。对每列进行不同的处理。
data_year = data.groupby(['Year']).agg({'ID': sum, "Age": 'mean', 'Height': 'var', 'Weight': 'std'}).reset_index()
describe()
describe()方法可用于集体计算每个组的主要统计数据。
data_year = data.groupby(['Year']).describe()