机器学习——数据降维和相关性分析

特征工程中数据降维方法思想有两种:

1. 破坏数据原有的结构从而提取数据的主要特征,例如主成分分析(PCA);

2. 对数据进行相关性分析,按照一定的法则来对数据的属性进行取舍达到降维的目的。

   相关性分析主要考量两组数据之间的相关性,以一种指标来判定,观察数据中哪些属性与目标数据的相关性较强,从而做出保留,哪些较弱,进行剔除。

   相关性分析方法也分为线性相关性分析与非线性相关性分析两种,分别应用于不同的场景。

一、 线性相关性分析

1.数据可视化方法:数据可视化在某些情况下可以简单且直观的判定数据之间的相关性,但是无法很好的展现出数据之间的关系。

2.皮尔逊相关性分析(还有斯皮尔曼)

使用pearson相关系数之前需要检查数据是否满足牵制条件:

1.两个变量间有线性关系;

2.变量是连续变量;

3.变量符合正态分布,且二元分布也符合正态分布‘

4.两变量独立;

5.两变量的方差不为0’

 

结果判断与分析:

相关系数的绝对值越大,相关性越强(-1 , 1)

通常情况下通过以下取值范围判断变量的相关强度:

相关系数 0.8~1.0  极强相关

                0.6~0.8  强相关

                0.4~0.6 中等程度相关

                0.2~0.4  弱相关

                0.0~0.2  极弱相关或无相关

以上的分析是针对理论环境下,在实际的工程应用中也有学者发现且表明当相关性大于0.2即代表存在相关性。

注意:

1.Pearson相关系数是用来检测两个连续型变量之间线性相关的程度,并且要求这两个变量分别分布服从正态分布;

2.pearson相关系数仅能度量变量间的线性相关性,如果变量间相关性未知,则pearson相关系数的大小没有指导意义,此时需要借助可视化手段辅助判断;

3.两变量的pearson相关系数实际上是这两个变量0均值化后的cosine相似度;

4.如果两个变量是非线性相关,为了使用线性模型,可以先将特征变量进行非线性变换,使之与目标线性相关‘

5.pearson相关系数对异常值比较敏感,在数据清洗阶段需要将异常值过滤或者平滑处理。

二、 非线性相关性分析

1,最大信息系数(maximal information coefficient, MIC)

最大信息系数是一种现代的相关性分析方法,该方法可以考察两个变量(大量数据,通常数据量在500条以上)之间的线性关系和非线性关系。

最大信息系数: https://minepy.readthedocs.io/en/latest/index.html#

 

(大概这么多,以后再补充)

参考:

https://www.cnblogs.com/zhuozige/p/12891600.html

 

 

 

 

 

  • 2
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值