上一篇文章介绍了pandas库的基本功能,本篇文章介绍pandas库描述性统计的概述与计算。pandas对象装配了一个常用数学、统计方法的集合,其中大部分属于归约或者汇总统计的类别,与numpy数组中的类似方法相比,它们内建了处理缺失值的功能。
df.sum()返回列上加和,df.sum(axis=‘columns’)返回轴上加和。
除非整个切片上都是na,否则na是被自动排除的。可以通过禁用skipna来实现不排除na值:
df.mean(axis=1,skipna=False)
idxmin和idxmax返回的是最小值和最大值的索引值:
df.idxmin()
除了归约方法外,有的方法是积累型方法:
df.cumsum()
df.describe()一次性产生多个汇总统计。