1. LDA的基本思想
LDA基本思想:给定带有标签的训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能近,异类样本的投影点尽可能远。如果是进行分类,将新样本投影到同样的这条直线上,根据投影点的位置来确定新样本的类别。
将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性
举个例子,上图给出了两种不同的投影方式,直观上来看右图更好。因为右图中蓝色和红色数据较为集中,且类别之间的距离明显,而左图边界处数据混杂。
那么如何用数学语言对“同类样本的投影点尽可能近(组内差异),异类样本的投影点尽可能远(组间差异)”进行表达呢?
2. 二分类LDA原理
接下来从二分类LDA入手,分析LDA原理
图中红色实心的圆点表示类别为0的样本的均值在直线上的投影位置,红色实心三角形表示的是类别为1的样本的均值在直线上的投影位置