lda 吗样本中心化需要_LDA和PCA降维总结

最新推荐文章于 2023-07-01 15:09:57 发布

君子心理

最新推荐文章于 2023-07-01 15:09:57 发布

阅读量253

点赞数

文章标签： lda 吗样本中心化需要

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42620563/article/details/112937076

版权

线性判别分析(LDA)和主成分分析(PCA)是两种常用的降维方法。LDA是一种监督学习的降维技术，目标是最大化类间距离和最小化类内距离；PCA则是无监督方法，旨在保留数据方差。LDA适用于分类任务，PCA适用于去冗余和降噪。两者均假设数据符合高斯分布，但LDA对非高斯分布数据处理效果不佳。LDA降维最多降到分类数k-1维，而PCA无此限制。

摘要由CSDN通过智能技术生成

线性判别分析(LDA)

LDA思想总结

线性判别分析(Linear Discriminant Analysis，LDA)是一种经典的降维方法。和主成分分析PCA不考虑样本类别输出的无监督降维技术不同，LDA是一种监督学习的降维技术，数据集的每个样本有类别输出。

LDA分类思想简单总结如下：

多维空间中，数据处理分类问题较为复杂，LDA算法将多维空间中的数据投影到一条直线上，将d维数据转化成1维数据进行处理。

对于训练数据，设法将多维数据投影到一条直线上，同类数据的投影点尽可能接近，异类数据点尽可能远离。

对数据进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定样本的类别。

如果用一句话概括LDA思想，即“投影后类内方差最小，类间方差最大”。

图解LDA核心思想

假设有红、蓝两类数据，这些数据特征均为二维，如下图所示。我们的目标是将这些数据投影到一维，让每一类相近的数据的投影点尽可能接近，不同类别数据尽可能远，即图中红色和蓝色数据中心之间的距离尽可能大。

[外链图片转存失败(img-YH3WFnCd-1562980711001)(./img/ch2/2.29/1.png)]

左图和右图是两种不同的投影方式。

左图思路：让不同类别的平均点距离最远的投影方式。

右图思路：让同类别的数据挨得最近的投影方式。

从上图直观看出，右图红色数据和蓝色数据在各自的区域来说相对集中，根据数据分布直方图也可看出，所以右图的投影效果好于左图，左图中间直方图部分有明显交集。

以上例子是基于数据是二维的，分类后的投影是一条直线。如果原始数据是多维的，则投影后的分类面是一低维的超平面。

二类LDA算法原理

输入：数据集

，其中样本

是n维向量，

，降维后的目标维度

。定义

为第

类样本个数；

为第

类样本的集合；

为第

类样本的均值向量；

为第

类样本的协方差矩阵。

其中

假设投影直线是向量

，对任意样本

，它在直线

上的投影为

，两个类别的中心点

,

在直线

的投影分别为

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lda 吗样本中心化需要_LDA和PCA降维总结

线性判别分析(LDA)LDA思想总结线性判别分析(Linear Discriminant Analysis，LDA)是一种经典的降维方法。和主成分分析PCA不考虑样本类别输出的无监督降维技术不同，LDA是一种监督学习的降维技术，数据集的每个样本有类别输出。LDA分类思想简单总结如下：多维空间中，数据处理分类问题较为复杂，LDA算法将多维空间中的数据投影到一条直线上，将d维数据转化成1维数据...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。