回顾
在数据处理进阶pandas入门(十)中,我们介绍了时间序列的重采样,其中resample()方法中的closed和label两个参数需要重点理解。今天我们看一下pandas中如何利用现成方法来进行一些简单常见的数值计算和统计。
常用的简单数值计算方法
我们使用pandas的一个主要目的就是为了进行数据的数值计算和统计。常用的简单数值计算方法有:
count():统计非NaN值的数量。
max()、min():样本最大值、最小值。
sum():样本总和。
mean():样本平均值。
quantile():样本分位数,参数q确定位置,如q=0.25就是按一定顺序排序后1/4位置上的数。
median():样本中位数,其实就是quantile()中q=0.5情况下的分位数。
std():样本标准差。
skew():样本的偏度。偏度也称为偏态、偏态系数,是统计系数分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
kurt():样本的峰度。峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观来看,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言的统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。
pandas中上述计算方法基本用法如下:
import pandas as pdimport numpy as npdf = pd.DataFrame({'k1':np.random.rand(5)*10, 'k2':np.random.rand(5)*10}, index=list('abcde'))print(df)print("---------------")# 统计非NaN值的数量print(df.count())print("---------------")# 统计最小值print(df.min())print("---------------")# 统计分位数,参数q确定位置print(df.quantile(q=0.25))print("---------------")# 求和print(df.sum())print("---------------")# 求平均值p