Pandas数据分析基础:排序、基本统计、累计统计、相关分析

目录

 一、数据的排序

(一)基本概念:

(二)排序

(1)操作索引的排序

 二、基本统计分析

三、数据的累计统计分析

四、相关分析


 一、数据的排序

(一)基本概念:

一组数据表达一个或多个含义,通过摘要(有损的地提取数据特征的过程),得到:基本统计(含有排序)、分布/累计统计、数据特征(相关性、周期性)、数据挖掘(形成知识)

(二)排序

(1)操作索引的排序

.sort_index():在指定轴上根据索引进行排序,默认零轴(纵向)升序,,参数axis指定轴,ascending指定升序或降序。

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index())    #默认
print(b.sort_index(axis=1,ascending=False)  #一轴(横向排序),降序

(2)操作数据的排序

.sort_values():在指定轴上根据数值进行排序,默认升序。
Series.sort_values():参数axis指定轴,ascending指定升序或降序。
DataFrame.sort_values():参数by指定axis上某个索引或索引列表,axis指定轴,ascending指定升序或降序。
*含有NaN的,无论升序降序,永远排在排序的末尾

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))

 二、基本统计分析

基本统计分析函数

适用于Series和DataFrame:sum,count,mean,median,var,std,min,max,describe

适用于Series:argmin,argmax,idxmin,idxmax。前两者是自动索引,后两者是自定义索引

*可以对describe对象使用索引获取我们想要的数据特征

三、数据的累计统计分析

对数据的前1-n个数据进行一些累计运算,减少for循环的使用,使数据运算更加灵活

适用于Series和DataFrame:cumsum,cumprod,cummax,cumin

适用于Series和DataFrame的滚动计算函数(以此计算相邻w个元素的xx):.rolling(w).sum/mean/var/std/min/max

四、相关分析

  1. 相关性:正相关、负相关、不相关
  2. 如何度量相关性
  • 协方差(>0:正相关,<0:负相关,=0:无关)
  • pearson相关系数

相关性分析函数:

适用于Series和DataFrame:cov协方差矩阵,corr相关系数矩阵

 

 

 


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值