数据分析-降维方法归纳

最新推荐文章于 2023-03-20 10:22:45 发布

sxjjxc

最新推荐文章于 2023-03-20 10:22:45 发布

阅读量1.3k

点赞数

分类专栏：面试文章标签：数据降维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suixuejie/article/details/89225979

版权

面试专栏收录该内容

17 篇文章 4 订阅

订阅专栏

1.缺失值比率（Missing Value Rate）

包含太多缺失值的列，包含的信息相对较少，可以将数据列缺失值数目大于某个阈值的列剔除

2.低方差滤波（Low Variance Filter）

数据列值变化较小的列，包含的信息较少。计算方差前应先对数据做归一化处理

3. 高相关滤波（High Correlation Filter）

如果两列的数据变化趋势相似，选择其中的一列就可满足要求。数值之间的相似性可用过计算相关系数来确定，非数值列之间的相关性可通过卡方检验来确定。计算前应归一化处理

4. 随机森林（Random Forests）

随机森林在构建过程中，对每棵树随机选择数据，且随机选择特征，如果一个属性被选为最佳分裂属性的频次较高，说明它包含的信息越多

5. PCA（Principal Component Analysis）主成分分析

无监督线性降维方法，基本思想是通过线性投影，将高维数据点映射到低维空间中，并期望在所投影的维度上数据的方差最大，即保留原始数据最大信息量。变换后的结果中，第一个主成分具有最大的方差值，每个后续的主成分在与前一个主成分正交的情况下具有最大的方差。降维后仅保存前m个主成分即可保留最大的信息量

6. LDA（Liner Discriminate Analysis）线性判别分析

有监督的线性降维方法，与PAC希望降维后保留最大的信息量不同，LDA希望数据在降维后数据更容易区分开来。LDA最多降到k-1维数，而PCA没有这个限制

7.LLE（Locally Linear Embedding）局部线性嵌入

非线性降维算法，使降维后的数据保持原有的流行结构。LLE算法认为数据集中的每个点都可以由其近邻点的线性加权得到，实现步骤：（1）找到数据点的k个近邻点（2）由每个近邻点构建改样本点的局部重建矩阵（3）由局部重建矩阵和近邻点计算重建后的样本点

8. LE（Laplacian Eigenmaps）拉普拉斯特征映射

使相互间有关系的点，即在图中相连的点，在降维后的空间中尽可能相近。实现步骤：（1）构建图（2）确定点与点之间的权重（3）求拉普拉斯矩阵的最小m个特征向量，作为降维后的输出。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据分析-降维方法归纳

1.缺失值比率（Missing Value Rate）包含太多缺失值的列，包含的信息相对较少，可以将数据列缺失值数目大于某个阈值的列剔除2.低方差滤波（Low Variance Filter）数据列值变化较小的列，包含的信息较少。计算方差前应先对数据做归一化处理3. 高相关滤波（High Correlation Filter）如果两列的数据变化趋势相似，选择其中的一列就可满足要...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。