目录
一、数据的排序
(一)基本概念:
一组数据表达一个或多个含义,通过摘要(有损的地提取数据特征的过程),得到:基本统计(含有排序)、分布/累计统计、数据特征(相关性、周期性)、数据挖掘(形成知识)
(二)排序
(1)操作索引的排序
.sort_index():在指定轴上根据索引进行排序,默认零轴(纵向)升序,,参数axis指定轴,ascending指定升序或降序。
import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index()) #默认
print(b.sort_index(axis=1,ascending=False) #一轴(横向排序),降序
(2)操作数据的排序
.sort_values():在指定轴上根据数值进行排序,默认升序。
Series.sort_values():参数axis指定轴,ascending指定升序或降序。
DataFrame.sort_values():参数by指定axis上某个索引或索引列表,axis指定轴,ascending指定升序或降序。
*含有NaN的,无论升序降序,永远排在排序的末尾
import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))
二、基本统计分析
基本统计分析函数
适用于Series和DataFrame:sum,count,mean,median,var,std,min,max,describe
适用于Series:argmin,argmax,idxmin,idxmax。前两者是自动索引,后两者是自定义索引
*可以对describe对象使用索引获取我们想要的数据特征
三、数据的累计统计分析
对数据的前1-n个数据进行一些累计运算,减少for循环的使用,使数据运算更加灵活
适用于Series和DataFrame:cumsum,cumprod,cummax,cumin
适用于Series和DataFrame的滚动计算函数(以此计算相邻w个元素的xx):.rolling(w).sum/mean/var/std/min/max
四、相关分析
- 相关性:正相关、负相关、不相关
- 如何度量相关性
- 协方差(>0:正相关,<0:负相关,=0:无关)
- pearson相关系数
相关性分析函数:
适用于Series和DataFrame:cov协方差矩阵,corr相关系数矩阵