简介
线性判别分析(Linear Discriminate Analysis, LDA)通过正交变换将一组可能存在相关性的变量降维变量,目标是将高维数据投影至低维后,同类的数据之间距离尽可能近、不同类数据之间距离尽可能远。
应用场景:
对于拟合、分类算法,可以利用主成分分析对输入数据实现降维,去除冗余数据可以提高计算效率并提高计算精度;
对于难以进行可视化的高维数据可以利用主成分分析映射至二维进行可视化,方便进行展示,如果需要展示的数据从属于多个类别,LDA的降维效果优于PCA。
由于LDA本身降维时就以分离不同类数据为目的,因此对于二分类问题可以直接降至一维进行分类。
缺点:
利用LDA降维时有最大维数限制,若输入数据的总类别数为 C C C则最大维数是 C − 1 C-1 C−1,这意味着在对高维但类别数较少的问题进行降维时LDA可能会导致大量信息的丢失。
算法流程
符号约定:
记总样本个数为 n n n,每个初始样本所含特征数为 N N N,最终选择的主成分所含特征数为 K K K
记第 i i i个样本的第 j j j个特征为: x i j x_{ij} xij
记 n n n个初始样本为: X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn
每个初始样本为一个 N N N维向量,第 i i i个样本为 X i = [ x i 1 x i 1 . . . x i N ] X_i=\begin{bmatrix}x_{i1} &x_{i1} & ... &x_{iN} \end{bmatrix} Xi=[xi1xi1...xiN]
记降维后的样本为: Y 1 , Y 2 , . . . , Y