LDA (Linear Discriminant Analysis, 线性判别分析)是一种有监督学习算法,同时经常被用来对数据进行降维。
相比于PCA,LDA可以作为一种有监督的降维算法。在PCA中,算法没有考虑数据的标签(类别),PCA只是把原数据映射到一些方差比较大的方向上而已。
LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。
LDA的中心思想:投影后类内方差最小,类间方差最大。要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
上图中国提供了两种投影方式,哪一种能更好的满足我们的标准呢?从直观上可以看出,右图要比左图的投影效果好,因为:
- 右图的红色数据和蓝色数据各个较为集中,且类别之间的距离明显。
- 左图则在边界处数据混杂。
以上就是LDA的主要