降维:用低维度向量表示高纬度特征。
主成分分析PCA、线性判别分析LDA、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影。
1.PCA
PCA是一种线性、非监督、全局的降维算法。
推理:
(1)PCA最大方差理论
基本思想,将样本点投影到一个方差最大的主轴方向上。
投影后的方差就是协方差矩阵的特征值。
具体操作步骤:
第一步,对样本数据进行中心化;
第二步,求样本协方差矩阵;
第三步,将协方差矩阵对角化,即进行特征分解,求得特征值和特征向量;
第四步,去特征值的前d个。
至此,完成n维到d维的PCA降维。
(2)PCA最小平方误差理论
不仅可以从方差最大的角度考虑,还可以从距离平方最小的角度考虑PCA。
2.线性判别分析LDA
LDA是线性、有监督的降维方法。
PCA不考虑样本的标签,只把样本映射到方差最大的方向;LDA考虑样本的标签,即考虑组间距离足够大,也考虑组内方差足够小。
类间距离越大越好,类内方差越小越好。对上式求偏导便可求解。
3.LDA和PCA比较
将LDA推至多分类情况,类内方差依然不变,类间距离无法直接计算(因为超过2类了),因而引入全局散度矩阵,即所有样本中心点,到各类样本中心点的距离。并将全局散度-类内散度作为类间散度。
具体步骤:
第一步,计算每个类别的均值向量和总体均值向量;
第二步,计算类内散度、全局散度、并相减得到类间散度;
第三步,对上述最大化目标进行特征分解,并从大到小排列;
第四步,选取前d个。
至此,完成n维到d维的LDA降维。