Pandas 小测类型

DataFrame

是一个表格型的数据类型,每列值的类型可以不同.

既有行索引---->index,也有列索引---->columns.

常用于表达二维数据,也可以表达多维数据。.

创建:二维ndarray对象,一维ndarray,列表,字典,元组,或Series构成的字典.


数据排序

.sort_index()方法在指定轴上根据索引进行排序,默认升序(纵向排序)

.sort_index(axis=0,ascending=True)

.sort_values()方法在指定轴上按数值进行排序,默认升序.

Series.sort_values(by (axis轴上的某个索引或索引列表) ,axis=0 (纵向的坐标轴) ,ascending=True)

默认的空值 NaN 统一放到末尾


Series和DataFrame

.count()  非NaN值的数量

.mean()   .median()   计算数据的算术平均值,算数中位数

.var()   .std()   计算数据的方差,标准差

describe()   Series类型    输出一些统计值(汇总)


协方差(相关性)         

>0,XY正相关.

<0,XY负相关.

-=0,XY无关.

Pearson相关系数(相关性)


相关分析函数:  .cov() 计算协方差矩阵    .corr()计算相关系数矩阵,Pearson,Spearman,Kendall等系数

简单的实例:房价的增幅与人民币(M2)增幅的相关性(2008-2012)

import pandas as pd

hprice = pd.Series([3.04,22.93,12.75,22.6,12.33],index=['2008','2009','2010','2011','2012'])

m2 = pd.Series([8.18,18.38,9.13,7.82,6.69],index=['2008','2009','2010','2011','2012'])

hprice.corr(m2)

输出 ;  0.5239439145220387(中等相关性)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值