机器学习——数据降维和相关性分析

最新推荐文章于 2024-04-25 12:11:35 发布

sinat_40265360

最新推荐文章于 2024-04-25 12:11:35 发布

阅读量5.5k

点赞数 2

文章标签：机器学习

原文链接：https://www.cnblogs.com/zhuozige/p/12891600.html

版权

特征工程中数据降维方法思想有两种：

1. 破坏数据原有的结构从而提取数据的主要特征，例如主成分分析（PCA）；

2. 对数据进行相关性分析，按照一定的法则来对数据的属性进行取舍达到降维的目的。

相关性分析主要考量两组数据之间的相关性，以一种指标来判定，观察数据中哪些属性与目标数据的相关性较强，从而做出保留，哪些较弱，进行剔除。

相关性分析方法也分为线性相关性分析与非线性相关性分析两种，分别应用于不同的场景。

一、线性相关性分析

1.数据可视化方法：数据可视化在某些情况下可以简单且直观的判定数据之间的相关性，但是无法很好的展现出数据之间的关系。

2.皮尔逊相关性分析（还有斯皮尔曼）

使用pearson相关系数之前需要检查数据是否满足牵制条件：

1.两个变量间有线性关系；

2.变量是连续变量；

3.变量符合正态分布，且二元分布也符合正态分布‘

4.两变量独立；

5.两变量的方差不为0’

结果判断与分析：

相关系数的绝对值越大，相关性越强（-1 ， 1）

通常情况下通过以下取值范围判断变量的相关强度：

相关系数 0.8~1.0 极强相关

0.6~0.8 强相关

0.4~0.6 中等程度相关

0.2~0.4 弱相关

0.0~0.2 极弱相关或无相关

以上的分析是针对理论环境下，在实际的工程应用中也有学者发现且表明当相关性大于0.2即代表存在相关性。

注意：

1.Pearson相关系数是用来检测两个连续型变量之间线性相关的程度，并且要求这两个变量分别分布服从正态分布；

2.pearson相关系数仅能度量变量间的线性相关性，如果变量间相关性未知，则pearson相关系数的大小没有指导意义，此时需要借助可视化手段辅助判断；

3.两变量的pearson相关系数实际上是这两个变量0均值化后的cosine相似度；

4.如果两个变量是非线性相关，为了使用线性模型，可以先将特征变量进行非线性变换，使之与目标线性相关‘

5.pearson相关系数对异常值比较敏感，在数据清洗阶段需要将异常值过滤或者平滑处理。

二、非线性相关性分析

1，最大信息系数（maximal information coefficient, MIC）

最大信息系数是一种现代的相关性分析方法，该方法可以考察两个变量（大量数据，通常数据量在500条以上）之间的线性关系和非线性关系。

最大信息系数： https://minepy.readthedocs.io/en/latest/index.html#

（大概这么多，以后再补充）

参考：

https://www.cnblogs.com/zhuozige/p/12891600.html

关注

2
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。