PCA和LDA

最新推荐文章于 2025-08-21 10:00:00 发布

山人自有锦囊妙计

最新推荐文章于 2025-08-21 10:00:00 发布

阅读量1w

点赞数 8

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20386411/article/details/83009694

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文深入探讨了PCA（主成分分析）和LDA（线性判别分析）两种降维技术，对比了它们在有监督和无监督学习场景下的应用。PCA通过最大化方差来寻找数据的新基，而LDA则依据类别标签选择降维方向。文章还详细解释了如何通过协方差矩阵和特征值分解实现PCA降维。

PCA和LDA

PCA（principal component analysis）：主成分法分析法，降维是减少的特征，数据行数没变，只是将列数减少了

让数据维度变的低一些，在低维中有利于更好的概括数据

LDA线性判别分析是有监督的问题，根据类别选择降维的方向（回头看视频是怎么将的），基于标签进行降维

PCA是无监督的问题，没有标检，基于方差进行降维

原始数据在某个维度上非常密集，全部堆叠在一起，通过PCA方法找出一个轴或者是降维的一个地方，将这些密集点扩散开

越大的方差方向，就会使数据通过PCA降维后，数据点之间分的越开。一旦数据点分的越开，就可以对数据进行更好的分类任务

降维前数据特征都有具体的含义，100维的数据（如年龄，工资等）降成10维，就无法知道这10维数据的含义（降维后只能得到一些结果，但是不知道结果的具体含义）

PCA这种方法应用很广泛：数据涉及隐私的情况下，可以先降维再发布出去

基变换

点（3,2）是在坐标轴中画出的，这个轴就表示的是基。如果坐标轴也就是基的方向发生了变化，那么之前的坐标点（3,2）也会发生变化的，如下图

如果两个基不是正交的，如左右相反，那么就不好去表示坐标中的点

PCA就是将数据换到一组新的基上

接下来的事情就是怎么去找到一组最合适的基（即找坐标轴）

方差表示一个特征的分散/波动程度

这里的假设均值为0，是提前做了一个标准化的操作，把每一列数据都减去这一列数据的均值。cov的公式本来是（ai-0）*（bi-0），这里假设均值为0，去掉0后就是上图中的公式

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差；样本方差的算术平方根叫做样本标准差.样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大

协方差表示两个特征之间的关系

a，b，b特征的变化如下：

a，b特征的变化相同，说明a，b的协方差很大

a，b与c之前的协方差很小

10维映射为2维：一旦找到方差最大的轴，方差次大的轴和已找到的轴是非常靠近的

如第一个轴表示第一天获利多少元，第二个轴表示第二天获利多少角，显然这两个轴表示的意思相近

因此通过协方差是否为0可以判断出变量之间是否无关，即两个轴是否垂直。（无关时，协方差中表达式的乘积为0）

降到几维就选择几组正交基

协方差矩阵中主对角线线上结果为数据方差（因为数据均值被提前预处理为0），写对角线上结果就是协方差

目标是让协方差除主对角线上元素外，其他元素（协方差）值全为0

特征值表示特征向量的重要程度。将特征值从大到小排序后，只需要取前K个特征值对应的特征向量作为基（做为基之前还需单位化）

拿到数据后直接求数据的协方差矩阵

PCA实例

x1，x2表示两条数据特征，总共有5条数据。降维后特征减少

降维时，怎样把4×2的矩阵构造出来？这个矩阵是通过协方差矩阵求出来的

协方差矩阵转化为对角矩阵，同时取出前K个特征值对应的特征向量合并起来就是需要构造的的转换矩阵了

再将原始数据矩阵乘构造出的矩阵即为降维后的矩阵

PCA降维能很好的进行分类，降维前后的结果

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。