目录
1. 排序
1.1 根据索引排序.sort_index()
.sort_index(axis = 0, ascending = True) 默认0轴,升序
1.2 根据数据进行排序.sort_values
.sort_values
Series.sort_values(axis=0,ascending=True)
Series.DataFrame_values(by, axis=0,ascending=True)
by:axis轴上某一个索引或者索引列表
--Nan空值统一放到排序末尾
2. 基础统计分析 .describe()
适用于Series和DataFrame类型
方法 | 说明 |
.sum() | 计算数据总和;默认按0轴计算,下同 |
.count() | 非NaN值的数量 |
.mean() .median() | 算术平均数、算术中位数 |
.var() .std() | 方差、标准差 |
.min() .max | 最小值、最大值 |
.describe() | 针对0轴(各列)的统计汇总 |
适用于Series类型
方法 | 说明 |
.argmin() .argmax() | 最大值、最小值所在位置得索引位置(自动索引) |
.idxmin() .idxmax() | ~(自定义索引) |
.describe()
Series.describe()数据是Series类型,所以可以用索引
DataFrame.describe()数据是Series类型,所以可以用索引
3. 累计统计分析
3.1 基础统计
适用于Series和DataFrame类型
方法 | 参数 |
.cumsum() | 依次给出前1、2、...、n个数的和 |
.cumprod() | ~积 |
.cummax() | ~最大值 |
.cummin() | ~最小值 |
3.2 滚动计算(窗口计算)
适用于Series和DataFrame类型
方法 | 说明 |
.rollling(w).sum() | 依次计算相邻w个元素的和 |
.rollling(w).mean() | 算术平均 |
.rollling(w).var() | 方差 |
.rollling(w).std() | 标准差 |
.rollling(w).min() .max() | 最小值、最大值 |
4. 数据的相关分析.corr()
-- Pearson相关系数
r绝对值 | 相关性 |
0.8-1.0 | 极强相关 |
0.6-0.8 | 强相关 |
0.4-0.6 | 中等程度相关 |
0.2-0.4 | 弱相关 |
0.0-0.2 | 极弱相关或无相关 |
-- 相关分析函数
方法 | 说明 |
.cov() | 协方差矩阵 |
.corr() | 相关系数矩阵,Pearson\Spearman\Kendall等系数 |