分组函数
df.groupby('A')
df.groupby(['A', 'B'])
for name, group in df.groupby('A'):
print(name, group)
df.groupby('A').get_group(value1)
聚合函数agg
df.groupby('A').sum() 或者df.groupby(['A', 'B']).sum()
内置聚合函数 |
作用 |
备注 |
sum |
汇总值 |
聚合函数 |
cumsum |
累加 |
分析函数 |
count |
统计非空值数量 |
聚合函数 |
cumcount |
累积非空值数量 |
分析函数 |
max |
最大值 |
聚合函数 |
cummax |
累积最大值 |
分析函数 |
min |
最小值 |
聚合函数 |
cummin |
累积最小值 |
分析函数 |
prod |
乘积 |
聚合函数 |
cumprod |
累乘 |
分析函数 |
idxmax |
最大值对应索引 |
聚合函数 |
idxmin |
最小值对应索引 |
聚合函数 |
mean |
平均值(不计空值) |
聚合函数 |
median |
算数中位数 |
聚合函数 |
mode |
众数 |
聚合函数 |
size |
统计值的数量 |
聚合函数 |
sum |
汇总值(不计空值) |
聚合函数 |
var |
无偏方差 |
聚合函数 |
std |
贝塞尔校正的样本标准偏差(不计空值) |
聚合函数 |
sem |
平均值的标准误差 |
聚合函数 |
mad |
平均绝对偏差 |
聚合函数 |
skew |
样本偏度(第三阶) |
聚合函数 |
kurt |
样本峰度(第四阶) |
聚合函数 |
quantile |
样本分位数(不同%的值) |
聚合函数 |
unique |
返回Series中所有非空值的唯一值向量 |
聚合函数 |
nunique |
返回Series中所有非空值的唯一值数量 |
聚合函数 |
abs |
绝对值 |
元素函数 |
value_count |
统计直方图频次,相当于groupby().count() |
聚合函数 |
def aggfun1(x):
return len(x)
aggfun2 = lambda x: len(x)
df.groupby('A').agg(lambda x: len(x))
df.groupby('A').agg([lambda x: len(x)])
df.groupby('A').agg(aggfun1)
df.groupby('A').agg([aggfun1, aggfun2])
df.group