DataFrame
是一个表格型的数据类型,每列值的类型可以不同.
既有行索引---->index,也有列索引---->columns.
常用于表达二维数据,也可以表达多维数据。.
创建:二维ndarray对象,一维ndarray,列表,字典,元组,或Series构成的字典.
数据排序
.sort_index()方法在指定轴上根据索引进行排序,默认升序(纵向排序)
.sort_index(axis=0,ascending=True)
.sort_values()方法在指定轴上按数值进行排序,默认升序.
Series.sort_values(by (axis轴上的某个索引或索引列表) ,axis=0 (纵向的坐标轴) ,ascending=True)
默认的空值 NaN 统一放到末尾
Series和DataFrame
.count() 非NaN值的数量
.mean() .median() 计算数据的算术平均值,算数中位数
.var() .std() 计算数据的方差,标准差
describe() Series类型 输出一些统计值(汇总)
协方差(相关性)
>0,XY正相关.
<0,XY负相关.
-=0,XY无关.
Pearson相关系数(相关性)
相关分析函数: .cov() 计算协方差矩阵 .corr()计算相关系数矩阵,Pearson,Spearman,Kendall等系数
简单的实例:房价的增幅与人民币(M2)增幅的相关性(2008-2012)
import pandas as pd
hprice = pd.Series([3.04,22.93,12.75,22.6,12.33],index=['2008','2009','2010','2011','2012'])
m2 = pd.Series([8.18,18.38,9.13,7.82,6.69],index=['2008','2009','2010','2011','2012'])
hprice.corr(m2)
输出 ; 0.5239439145220387(中等相关性)