数据分析-降维方法归纳

1.缺失值比率(Missing Value Rate)

包含太多缺失值的列,包含的信息相对较少,可以将数据列缺失值数目大于某个阈值的列剔除

2.低方差滤波(Low Variance Filter)

数据列值变化较小的列,包含的信息较少。计算方差前应先对数据做归一化处理

3. 高相关滤波(High Correlation Filter)

如果两列的数据变化趋势相似,选择其中的一列就可满足要求。数值之间的相似性可用过计算相关系数来确定,非数值列之间的相关性可通过卡方检验来确定。计算前应归一化处理

4. 随机森林(Random Forests)

随机森林在构建过程中,对每棵树随机选择数据,且随机选择特征,如果一个属性被选为最佳分裂属性的频次较高,说明它包含的信息越多

5. PCA(Principal Component Analysis)主成分分析

无监督线性降维方法,基本思想是通过线性投影,将高维数据点映射到低维空间中,并期望在所投影的维度上数据的方差最大,即保留原始数据最大信息量。变换后的结果中,第一个主成分具有最大的方差值,每个后续的主成分在与前一个主成分正交的情况下具有最大的方差。降维后仅保存前m个主成分即可保留最大的信息量

6. LDA(Liner Discriminate Analysis)线性判别分析

有监督的线性降维方法,与PAC希望降维后保留最大的信息量不同,LDA希望数据在降维后数据更容易区分开来。LDA最多降到k-1维数,而PCA没有这个限制

7.LLE(Locally Linear Embedding)局部线性嵌入

非线性降维算法,使降维后的数据保持原有的流行结构。LLE算法认为数据集中的每个点都可以由其近邻点的线性加权得到,实现步骤:(1)找到数据点的k个近邻点(2)由每个近邻点构建改样本点的局部重建矩阵(3)由局部重建矩阵和近邻点计算重建后的样本点

8. LE(Laplacian Eigenmaps)拉普拉斯特征映射

使相互间有关系的点,即在图中相连的点,在降维后的空间中尽可能相近。实现步骤:(1)构建图(2)确定点与点之间的权重(3)求拉普拉斯矩阵的最小m个特征向量,作为降维后的输出。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值