sklearn实现lda模型_LDA线性判别模型简介及sklearn参数

最新推荐文章于 2024-07-22 09:31:55 发布

weixin_39624461

最新推荐文章于 2024-07-22 09:31:55 发布

阅读量1.1k

点赞数 2

文章标签： sklearn实现lda模型

本文链接：https://blog.csdn.net/weixin_39624461/article/details/111518542

版权

本文介绍了LDA（线性判别分析）的基本思想和用途，包括其在模式识别中的应用和与PCA的区别。LDA是一种有监督的降维技术，旨在最大化类间方差和最小化类内方差。sklearn库提供了LinearDiscriminantAnalysis类，支持多种求解算法和参数收缩选项。LDA不仅可以用于降维，还可用于分类任务。

摘要由CSDN通过智能技术生成

本文LDA指线性判别模型，并非自然语言处理中的主题模型LDA。

1.LDA简介

LDA在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。如下图

从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图实际上是PCA的思想，没有用到类别信息，投影后的方差最大，但分类边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。(不过LDA似乎很少应用于分类)

2.LDA降维与PCA区别

相同点：

1)两者均可以对数据进行降维。