正交PCALPP代码实现
0.引言
传统基于主成分分析 (Principal component analysis, PCA) 的数据降维方法在提取有效特征信息时只考虑全局结构保持而未考虑样本间的局部近邻结构保持问题, 本文提出一种改进全局结构保持算法的特征提取与降维方法,改进的特征提取与降维方法将流形学习中局部结构保持 ( Locality preserving projection, LPP) 的思想融入主成 分分析的目标函数中, 使样本投影后的特征空间保持原始样本空间的整体结构, 还保持样本空间相似的局部近邻结构, 包含更丰富的特征信息,并且引入正交约束消除特征冗余。采用UCI数据集进行降维可视化分析。
1.原理
1.1 PCA目标函数
PCA的核心是通过投影矩阵A将高维数据降成低维数据,实现数据沿该坐标系的分布方差最大化,能够实现最大化保持数据的全局结构特性,其目标函数如下:
m a x t r ( A ′ X X ′ A ) max tr(A'XX'A) maxtr(A′XX′A)
1.2 LPP目标函数
m i n t r ( A ′ X L X ′ A ) ; L = D − W ; s t . A ′ X D X ′ A = I min tr(A'XLX'A); L=D-W; st.A'XDX'A=I mintr(A