统计机器学习相关性分析

在我们进行数据分析或者是机器学习模型建立的时候我们往往忽略数据处理的一个过程-----相关性分析。诚然,数据相互之间可能会存在一些联系,这些关系可能正相关,或者是负相关,也可能无关。
设X1,X2,X3,X4,X5为模型的自变量,Y为因变量。可以想到,如果X1与X2有很强的相关性或者X3与X2有相关性,即两两之间存在某种相关性,那么是不是意味着某个特征可以由其他特征表示?既然这样,有些特征也许是多余的。这些特征对我们的模型起不了很大的作用,甚至是模型的累赘,消耗内存。
在建立模型的过程中。 那么我们就需要一种能把这种关联性定量的工具来对数据进行分析。

  • 皮尔逊相关性分析

皮尔逊相关性系数只能表达两两特征之间的关系。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
% matplotlib inline


data2 = pd.read_csv(r'E:\Project1\section_1_day_data.csv',index_col=0)
X=data2.iloc[:, 0:10]
sns.heatmap(X.corr(),vmin=0, vmax=1);

相关性热点图

print(X.corr()) #显示特征与特征之间的相关性系数。

相关性系数
相关性区间为[-1,1],-1代表完全负相关,1代表完全正相关。为0代表完全不相关。因此,相关性系数绝对值越接近于1,两者特征之间的相关性最强。

怎么样,变量之间的相关性是不是一清二楚了?
报告老师,水温和参数TP之间的关系最强。小论文最后一章又有东西写了,多加几张表投个SCI四区论文水一下问题不大。

在这里要注意了,\右对角线上的都是1,代表变量与自身的关系。 ±代表正负相关。 因此,我们通常通过相关系数的绝对值来判断特征之间的相关性。

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值