Pandas数据分析基础

 一、数据的排序

(一)基本概念:

一组数据表达一个或多个含义,通过摘要(有损的地提取数据特征的过程),得到:基本统计(含有排序)、分布/累计统计、数据特征(相关性、周期性)、数据挖掘(形成知识)

(二)排序

(1)操作索引的排序

.sort_index():在指定轴上根据索引进行排序,默认零轴(纵向)升序,,参数axis指定轴,ascending指定升序或降序。

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index())    #默认
print(b.sort_index(axis=1,ascending=False)  #一轴(横向排序),降序

(2)操作数据的排序

.sort_values():在指定轴上根据数值进行排序,默认升序。
Series.sort_values():参数axis指定轴,ascending指定升序或降序。
DataFrame.sort_values():参数by指定axis上某个索引或索引列表,axis指定轴,ascending指定升序或降序。
*含有NaN的,无论升序降序,永远排在排序的末尾

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))

 二、基本统计分析

基本统计分析函数

适用于Series和DataFrame:sum,count,mean,median,var,std,min,max,describe

适用于Series:argmin,argmax,idxmin,idxmax。前两者是自动索引,后两者是自定义索引

*可以对describe对象使用索引获取我们想要的数据特征

三、数据的累计统计分析

对数据的前1-n个数据进行一些累计运算,减少for循环的使用,使数据运算更加灵活

适用于Series和DataFrame:cumsum,cumprod,cummax,cumin

适用于Series和DataFrame的滚动计算函数(以此计算相邻w个元素的xx):.rolling(w).sum/mean/var/std/min/max

四、相关分析

  1. 相关性:正相关、负相关、不相关
  2. 如何度量相关性
  • 协方差(>0:正相关,<0:负相关,=0:无关)
  • pearson相关系数

相关性分析函数:

适用于Series和DataFrame:cov协方差矩阵,corr相关系数矩阵

 

 

 


 

发布了6 篇原创文章 · 获赞 0 · 访问量 880
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览