特征工程中数据降维方法思想有两种:
1. 破坏数据原有的结构从而提取数据的主要特征,例如主成分分析(PCA);
2. 对数据进行相关性分析,按照一定的法则来对数据的属性进行取舍达到降维的目的。
相关性分析主要考量两组数据之间的相关性,以一种指标来判定,观察数据中哪些属性与目标数据的相关性较强,从而做出保留,哪些较弱,进行剔除。
相关性分析方法也分为线性相关性分析与非线性相关性分析两种,分别应用于不同的场景。
一、 线性相关性分析
1.数据可视化方法:数据可视化在某些情况下可以简单且直观的判定数据之间的相关性,但是无法很好的展现出数据之间的关系。
2.皮尔逊相关性分析(还有斯皮尔曼)
使用pearson相关系数之前需要检查数据是否满足牵制条件:
1.两个变量间有线性关系;
2.变量是连续变量;
3.变量符合正态分布,且二元分布也符合正态分布‘
4.两变量独立;
5.两变量的方差不为0’
结果判断与分析:
相关系数的绝对值越大,相关性越强(-1 , 1)
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8~1.0 极强相关
0.6~0.8 强相关
0.4~0.6 中等程度相关
0.2~0.4 弱相关
0.0~0.2 极弱相关或无相关
以上的分析是针对理论环境下,在实际的工程应用中也有学者发现且表明当相关性大于0.2即代表存在相关性。
注意:
1.Pearson相关系数是用来检测两个连续型变量之间线性相关的程度,并且要求这两个变量分别分布服从正态分布;
2.pearson相关系数仅能度量变量间的线性相关性,如果变量间相关性未知,则pearson相关系数的大小没有指导意义,此时需要借助可视化手段辅助判断;
3.两变量的pearson相关系数实际上是这两个变量0均值化后的cosine相似度;
4.如果两个变量是非线性相关,为了使用线性模型,可以先将特征变量进行非线性变换,使之与目标线性相关‘
5.pearson相关系数对异常值比较敏感,在数据清洗阶段需要将异常值过滤或者平滑处理。
二、 非线性相关性分析
1,最大信息系数(maximal information coefficient, MIC)
最大信息系数是一种现代的相关性分析方法,该方法可以考察两个变量(大量数据,通常数据量在500条以上)之间的线性关系和非线性关系。
最大信息系数: https://minepy.readthedocs.io/en/latest/index.html#
(大概这么多,以后再补充)
参考:
https://www.cnblogs.com/zhuozige/p/12891600.html