机器学习python实践——数据“相关性“的一些补充性个人思考

在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!

本文主要想解释三个问题:一个是“不相关”和“独立性”的区别一个是去“相关性”有啥用一个是该如何去“相关性”

一、“不相关”和“独立性”有什么区别

相信很多人对于“相关性”中的“不相关”和“独立性”傻傻分不清,所以先给出结论:不相关不一定独立,独立一定不相关,。至于为什么,先给出私人版的“相关性”和“独立性”的定义,然后再给出一个例子让大家直观感受一下:

“相关性”:数据特征变化趋势始终一致或相反

“独立性”:数据特征之间不存在影响现象

先说明“不相关不一定独立”,举个例子:

比如说医生和律师,医生的工资是由国家发的,每个月医生的工资收入都是固定的,而律师的工资是由律师事务所发的,律师每个月都是在增长的,从这里我们可以看出,医生的工资变化趋势是不增不减,而律师的工资变化趋势是增涨的,两者工资变化明显不存在一致或者相反的变化趋势,所以两者工资收入是不相关的,但是如果律师得了病,只有一名医生能看,这个医生又因为工资老是不涨闹情绪不给律师看病,那么律师势必无法工作,收入也就会暴跌,从这我们就可以看出医生的收入可能会在某种程度上影响到律师收入,这就表明两者是不独立的,即医生工资变化会对律师工资变化产生影响。

上面的例子说明了“不相关不一定独立”,那么下面就对“独立一定不相关”进行说明。

从上面的定义可以看出,“独立性”侧重于“影响”,“相关性”侧重于“趋势”,那么是否存在两个特征独立且相关的情况呢?我的答案是:不存在!!!因为独立意味着“随机”,而且是完全随机,这意味着没有任何规律可以寻找,这样特征之间才能保持互不影响,就好像,你都猜不到我心里想的,你怎么可能跟我同频共振,既然都没有没有规律可循,那么数据特征之间也就不存在“同增同减”或者“一减一增”这样的规律,也就表明数据特征之间不存在一致或相反的变化趋势,即数据特征之间不相关。

二、去“相关性”有啥用

网上看了很多,但是个人感觉主要有两方面的作用:一是去“相关性”可以降低过拟合风险;二是去“相关性”可以降低计算难度

先说一下去“相关性”的原因:原因很简单,两个特征强相关,即表明两个特征之间的存在大量的冗余数据,如果不进行去“相关性”操作,就会导致模型过拟合风险增高或者泛化能力降低

1、为什么去“相关性”可以降低过拟合风险

具体该怎么理解,我在这里给大家举个简单的例子大家就明白了,以体重为例,体重有两种表示方式,一个是“斤”,一个是“千克”,我们在表示体征时两者选其一即可表示清楚相关信息,如果两者同时使用,信息就重复了,就会出现冗余现象,加入到模型中就相当于是同一个信息,告诉了计算机两次,计算机没这么机智,人类告诉他什么他就是什么,同样的信息被重复表示,就会导致这个信息的权重变大,就会容易产生过拟合的风险

2、为什么去“相关性”可以降低计算难度

至于说为什么进行去“相关性”操作可以降低计算难度,我下面直接举例说明,大家仔细感受一下:

比如说,上图中,两数据蓝点的在原始坐标系下的坐标分别是(-1,-1)和(1,1),对他进行进行诸如PCA等去"相关性"的方法降低数据两个特征之间的“相关性”。于是,建立了一个新的坐标系(两红线),新坐标系的横轴就是两点之间的连线,所以在不同坐标系下,同样的两点坐标矩阵就发生了如下的变化:

从上面例子我们可以很直观的看到,对数据进行去“相关性”操作后,数据矩阵零更多了,这也就表明计算难度就降低了,所以降低数据“相关性”可以降低计算难度

三、该如何去“相关性”

到目前为止,我所了解的去“相关性”操作有两个:

一个是直接删除,这个就相当于很多参考书中所说的“特征选择”,我们只选择“相关性”低的关键特征;一个是利用PCA主成分分析法或者进行数据白化操作

对于PCA主成分分析可以看我写的《机器学习python实践中sklearn.decomposition.PCA 主成分分析的三个关键属性的个人思考》一文,链接如下:机器学习python实践中sklearn.decomposition.PCA 主成分分析的三个关键属性的个人思考_sklearn.decomposition pca-CSDN博客

对于数据白化可以看我写的《机器学习python实践中关于数据预处理——“数据白化”的一些个人思考》一文,链接如下:机器学习python实践中关于数据预处理——“数据白化”的一些个人思考_python 时序数据谱白化法-CSDN博客

本文参考:

马同学 (matongxue.com)

概率问题 独立一定不相关,不独立一定相关,相关一定不独立,不相关不一定独立 是这个关系么_百度知道 (baidu.com)

  • 15
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值