1、分类原理:
分类思想:训练时,设法将训练样本投影到一条直线上,这条直线上,同类样本的投影点尽可能接近,异类样本点的类别中心尽可能远离。预测时,将样本投影到学得的直线上,根据投影点的位置判断其类别。
分类过程:一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布,这样利用LDA进行投影后,可以利用极大似然估计计算各个类别投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后,我们可以将它投影,然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算它属于这个类别的概率,最大的概率对应的类别即为预测类别。
1.1 二类问题:
定义类内散度矩阵和类间散度矩阵。最大化二者的广义瑞利商,利用拉格朗日乘子法进行优化求解。
1.2 多分类问题:
多类问题:新定义全局散度矩阵,重定义类内散度矩阵为所有类别的散度矩阵之和,类间散度矩阵直接用总体散度矩阵减去类内散度矩阵便可以,优化目标通过广义特征值问题求解,得到W的闭式解。
2、降维原理
降维过程:确定类别数目,然后进行随机划分,计算各个类的样本均值向量,通过均值向量计算类内散度矩阵SB和类内散度矩阵SW。计算矩阵的特征向量和对应的特征值。选择D个最大特征值对应的矩阵W。使用该矩阵对数据集X进行降维Y=WTX。
W是K个最大的广义特征值的特征向量组成的矩阵。将W看成一个投影矩阵,那么实际上就是将原来的特征空间投影到了K维空间中,可以缩小样本点的维度,而且利用了类别信息,是一种经典的有监督降维方法。
LDA和PCA之间的区别:
相同点:
两者均可以对数据进行降维。两者在降维时均使用了矩阵特征分解的思想。
不同点:
LDA是有监督的降维方法,而PCA是无监督的降维方法
LDA降维最多降到类别数C-1的维数,而PCA没有这个限制。
LDA除了可以用于降维,还可以用于分类。
LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。