【Python数据分析与展示】（五）pandas库数据分析

最新推荐文章于 2024-02-14 20:30:00 发布

polarislove1113

最新推荐文章于 2024-02-14 20:30:00 发布

阅读量463

点赞数

分类专栏： python数据分析文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/polarislove36/article/details/78794341

版权

python数据分析专栏收录该内容

17 篇文章 1 订阅

订阅专栏

数据的排序

两种方法：根据索引进行排序 .sort_index(axis = 0,ascending = True)
.sort_value() 根据指定轴上的数据进行排序
对于Series .sort_value(axis = 0,ascending = True)
对于DataFrame .sort_value(by,axis = 0,ascending = True)

b = DataFrame(np.random.randint(0,20,(5,4)),columns = ["a","b","c","d"])
#
   a    b   c   d
0   13  12  15  6
1   19  6   0   17
2   18  13  6   17
3   0   5   19  14
4   11  10  1   12
b.sort_index(ascending = False)
#
    a   b   c   d
4   11  10  1   12
3   0   5   19  14
2   18  13  6   17
1   19  6   0   17
0   13  12  15  6
b.sort_values('a')
#
    a   b   c   d
3   0   5   19  14
4   11  10  1   12
0   13  12  15  6
2   18  13  6   17
1   19  6   0   17

基本统计函数比如: .sum() .count() .mean() .median() .var() .std() .min() .max() 都是默认0轴计算的
只适用于Series的函数：argmin（） argmax（）返回自动索引的最大值最小值的索引位置
idxmin() idxmax() 返回自定义索引的最大值最小值的索引位置
最有用的方法 describ（）或者.describe()[“列名”]
如果是DataFrame建议加上.iloc或loc

累计统计函数
.cumsum() 累计和 .cumprod() 累计积 .cummax .cummin() 依次给出前面数字的最大值，最小值
滚动计算函数
.rolling(w).sum() .rolling(w).mean() .rolling(w).var() .rolling(w).std() .rolling(w).min() .rolling(w).max()
计算相邻的w个元素的统计函数
相关性函数
.cov() 协方差 .corr() 相关系数