From https://blog.csdn.net/weixin_40604987/article/details/79615968
2.2 算法
思想:给定训练集样例,设法将样例投影到一条直线上,使得同类样例的投影尽可能接近,异类样例的投影点尽可能原理;在对新的样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。(下图截自 周志华《机器学习》)
假设:
数据呈正态分布
各类别数据具有相同的协方差矩阵
样本的特征从统计上来说相互独立
事实上,即使违背上述假设,LDA仍能正常工作
LDA关键步骤:
对d维数据进行标准化处理(d为特征数量)
对于每一类别,计算d维的均值向量
构造类间的散布矩阵 SBSB 以及 类内散布矩阵 SWSW
计算矩阵 S−1WSBSW−1SB 的特征值以及对应的特征向量
选取前k个特征值所对应的特征向量,构造一个 d∗kd∗k 维的转换矩阵 WW,其中特征向量以列的形式排列
使用转换矩阵 WW 将样本映射到新的特征子空间上
若将 WW 视为一个投影矩阵,则多分类LDA将样本投影到 d′d′ 维空间(d′<<dd′<<d),于是达到了降维的目的
在投影过程中用到了类别信息