pandas入门(5)——汇总和计算描述统计
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的,如
In [1]: df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
.....: [np.nan, np.nan], [0.75, -1.3]],
.....: index=['a', 'b', 'c', 'd'],
.....: columns=['one', 'two'])
In [2]: df
Out[2]:
one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
调用DataFrame的sum方法将会返回一个含有列的和的Series
In [3]: df.sum()
Out[3]:
one 9.25
two -5.80
传入axis='columns’或axis=1将会按行进行求和运算,如
In [4]: df.sum(axis=1)
Out[4]:
a 1.40
b 2.60
c NaN
d -0.55
NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:
In [5]: df.mean(axis='columns', skipna=False)
Out[5]:
a NaN
b 1.300
c NaN
d -0.275
有些方法(如idxmin和idxmax)返回的是间接统计(比如达到最小值或最大值的索引)
In [6]: df.idxmax()
Out[6]:
one b
two d
另一些方法则是累计型的&#x