本文的主要内容是基于中国大学mooc(慕课)中的“Python数据分析与可视化”课程进行整理和总结。
pandas提供了一些数据统计分析的函数,这些函数使用于Series和DataFrame类型。
函数名 | 函数定义 |
---|---|
.sum() | 计算数据的总和,按照0轴计算,下同 |
.count() | 非NaN的数量 |
.mean() .median() | 计算数据的算术平均值,算数中位数 |
.var() .std() | 计算数据的方差,标准差 |
.min() .max() | 计算数据的最小值/最大值 |
还有一些函数只适用于Serise类型。
函数名 | 函数定义 |
---|---|
.argmin() argmax() | 计算数据最小值,最大值所在位置的索引(自动索引) |
.idxmin() idmax() | 计算数据最小值,最大值所在位置的索引(自定义索引) |
自动索引的一个比较大的好处在于:自动索引是一个0-n的数,我们很容易的可以通过区间切片或者索引的方式获得我们需要的数据,而自定义索引很难形成一个序列,对其进行切片相对复杂或没有一定规律可循。
在Series和DataFrame类型中有一个方法囊括了所有方法的结果:
函数名 | 函数定义 |
---|---|
.describe() | 针对0轴(各列)的汇总统计 |
a = pd.Series([9, 8, 7, 6],index=['a','b','c','d']