机器学习中的降维方法（PCA和LDA）

最新推荐文章于 2021-11-28 21:37:09 发布

simple_hututu

最新推荐文章于 2021-11-28 21:37:09 发布

阅读量730

点赞数

降维

如果拿特征选择后的数据直接进行模型的训练，由于数据的特征矩阵维度大，可能会存在数据难以理解、计算量增大、训练时间过长等问题，因此我们要对数据进行降维。降维是指把原始高维空间的特征投影到低维度的空间，进行特征的重组，以减少数据的维度。降维与特征最大的不同在于，特征选择是进行特征的剔除、删减，而降维是做特征的重组构成新的特征，原始特征全部“消失”了，性质发生了根本的变化。常见的降维方法有：主成分分析法（PCA）和线性判别分析法（LDA）。

主成分分析法

主成分分析法（PCA）是最常见的一种线性降维方法，其要尽可能在减少信息损失的前提下，将高维空间的数据映射到低维空间中表示，同时在低维空间中要最大程度上的保留原数据的特点。主成分分析法本质上是一种无监督的方法，不用考虑数据的类标，它的基本步骤大致如下：

（a）数据中心化（每个特征维度减去相应的均值）

（b）计算协方差矩阵以及它的特征值和特征向量

（c）将特征值从大到小排序并保留最上边的N个特征

（d）将高维数据转换到上述N个特征向量构成的新的空间中

此外，在把特征映射到低维空间时要注意，每次要保证投影维度上的数据差异性最大（也就是说投影维度的方差最大）。我们可以通过下图来理解这一过程：

线性判别分析法

线性判别分析法（LDA）也是一种比较常见的线性降维方法，但不同于 PCA 的是，它是一种有监督的算法，也就是说它数据集的每个样本会有一个输出类标。线性判别算法的核心思想是，在把数据投影到低维空间后，希望同一种类别数据的投影点尽可能的接近，而不同类别数据的类别中心之间的距离尽可能的远。也就是说 LDA 是想让降维后的数据点尽可能地被区分开。其示例图如下所示：

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的降维方法（PCA和LDA）

降维如果拿特征选择后的数据直接进行模型的训练，由于数据的特征矩阵维度大，可能会存在数据难以理解、计算量增大、训练时间过长等问题，因此我们要对数据进行降维。降维是指把原始高维空间的特征投影到低维度的空间，进行特征的重组，以减少数据的维度。降维与特征最大的不同在于，特征选择是进行特征的剔除、删减，而降维是做特征的重组构成新的特征，原始特征全部“消失”了，性质发生了根本的变化。常见的降维方法有：主成分...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。