lda 吗 样本中心化 需要_LDA和PCA降维总结

线性判别分析(LDA)和主成分分析(PCA)是两种常用的降维方法。LDA是一种监督学习的降维技术,目标是最大化类间距离和最小化类内距离;PCA则是无监督方法,旨在保留数据方差。LDA适用于分类任务,PCA适用于去冗余和降噪。两者均假设数据符合高斯分布,但LDA对非高斯分布数据处理效果不佳。LDA降维最多降到分类数k-1维,而PCA无此限制。
摘要由CSDN通过智能技术生成

线性判别分析(LDA)

LDA思想总结

​ 线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的降维方法。和主成分分析PCA不考虑样本类别输出的无监督降维技术不同,LDA是一种监督学习的降维技术,数据集的每个样本有类别输出。

LDA分类思想简单总结如下:

多维空间中,数据处理分类问题较为复杂,LDA算法将多维空间中的数据投影到一条直线上,将d维数据转化成1维数据进行处理。

对于训练数据,设法将多维数据投影到一条直线上,同类数据的投影点尽可能接近,异类数据点尽可能远离。

对数据进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。

如果用一句话概括LDA思想,即“投影后类内方差最小,类间方差最大”。

图解LDA核心思想

​ 假设有红、蓝两类数据,这些数据特征均为二维,如下图所示。我们的目标是将这些数据投影到一维,让每一类相近的数据的投影点尽可能接近,不同类别数据尽可能远,即图中红色和蓝色数据中心之间的距离尽可能大。

[外链图片转存失败(img-YH3WFnCd-1562980711001)(./img/ch2/2.29/1.png)]

左图和右图是两种不同的投影方式。

​ 左图思路:让不同类别的平均点距离最远的投影方式。

​ 右图思路:让同类别的数据挨得最近的投影方式。

​ 从上图直观看出,右图红色数据和蓝色数据在各自的区域来说相对集中,根据数据分布直方图也可看出,所以右图的投影效果好于左图,左图中间直方图部分有明显交集。

​ 以上例子是基于数据是二维的,分类后的投影是一条直线。如果原始数据是多维的,则投影后的分类面是一低维的超平面。

二类LDA算法原理

​ 输入:数据集

,其中样本

是n维向量,

,降维后的目标维度

。定义

为第

类样本个数;

为第

类样本的集合;

为第

类样本的均值向量;

为第

类样本的协方差矩阵。

​ 其中

​ 假设投影直线是向量

,对任意样本

,它在直线

上的投影为

,两个类别的中心点

,

在直线

的投影分别为

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值