Python数据挖掘建模 chapter_4 相关性分析

Pandas主要统计特征函数:

sum()样本总和
mean()样本算术平均数
var()样本方差
std()样本标准差
corr()样本Spearman相关系数矩阵
cov()样本协方差矩阵
skew()样本偏度(三阶矩)
kurt()样本峰度(四阶矩)
describe()基本描述量


输入数据:

num gps_w gps_j price st
A0001 22.56614225 113.9808368 66 0
A0002 22.68620526 113.9405252 65.5 0
A0003 22.57651183 113.957198 65.5 1
A0004 22.56484081 114.2445711 75 0
A0005 22.55888775 113.9507227 65.5 0
A0006 22.55899906 114.2413174 75 0
A0007 22.54900371 113.9722597 65.5 1
A0008 22.56277351 113.9565735 65.5 0
A0009 22.50001192 113.8956606 66 0
(详细为2017全国大学生数学建模大赛 B题数据)

#-*- coding: utf-8 -*-
from __future__ import print_function
import pandas as pd

catering_sale = 'pdata.xls' #含有其他属性
outputfile = 'data_result.xls' #保存结果的文件名
data = pd.read_excel(catering_sale, index_col = 'num') #读取数据,指定num列为索引列

a=data.corr() #相关系数矩阵
b=data.corr()['price'] #只显示price相关系数
#c=data[u''].corr(data[u'']) #计算相关系数
a.to_excel(outputfile) 
print(a)


输出

  gps_w gps_j price st
gps_w 1 -0.614413664 0.120464302 0.195195069
gps_j -0.614413664 1 -0.059688653 -0.074869944
price 0.120464302 -0.059688653 1 0.203055567
st 0.195195069 -0.074869944 0.203055567 1


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值