数据的排序
两种方法:根据索引进行排序 .sort_index(axis = 0,ascending = True)
.sort_value() 根据指定轴上的数据进行排序
对于Series .sort_value(axis = 0,ascending = True)
对于DataFrame .sort_value(by,axis = 0,ascending = True)
b = DataFrame(np.random.randint(0,20,(5,4)),columns = ["a","b","c","d"])
#
a b c d
0 13 12 15 6
1 19 6 0 17
2 18 13 6 17
3 0 5 19 14
4 11 10 1 12
b.sort_index(ascending = False)
#
a b c d
4 11 10 1 12
3 0 5 19 14
2 18 13 6 17
1 19 6 0 17
0 13 12 15 6
b.sort_values('a')
#
a b c d
3 0 5 19 14
4 11 10 1 12
0 13 12 15 6
2 18 13 6 17
1 19 6 0 17
基本统计函数比如: .sum() .count() .mean() .median() .var() .std() .min() .max() 都是默认0轴计算的
只适用于Series的函数:argmin() argmax() 返回自动索引的最大值最小值的索引位置
idxmin() idxmax() 返回自定义索引的最大值最小值的索引位置
最有用的方法 describ()或者.describe()[“列名”]
如果是DataFrame建议加上.iloc或loc
累计统计函数
.cumsum() 累计和 .cumprod() 累计积 .cummax .cummin() 依次给出前面数字的最大值,最小值
滚动计算函数
.rolling(w).sum() .rolling(w).mean() .rolling(w).var() .rolling(w).std() .rolling(w).min() .rolling(w).max()
计算相邻的w个元素的统计函数
相关性函数
.cov() 协方差 .corr() 相关系数