A. PCA
方差大的是信号,方差小的是噪音,信号/噪音就是信噪比,越大越好;
PCA最大化方差:先中心化,则投影到新轴w上均值也还是0;样本们在w上的投影,让方差最大化,求w;用了向量乘向量乘向量乘向量,中间2个向量写成x的协方差矩阵,又因为w^2=1,带等式约束的最优化问题,拉格朗日乘子法,求导=0,解得x协方差矩阵的最大特征值是最大方差,对应的特征向量是最优轴;
点到直线w的投影=
B. LDA
带有类别时,用LDA降维比用PCA更准;例子:串在一根棍子上的两张大饼,如果用PCA,则投影到垂直棍子的方向,如果用LDA,则投影到棍子方向;
最大化:类间距离/类内距离;
分子类间距离,是样本投影后类中心们的距离之和;
分母类内距离,是样本投影后每个类别的方差之和;
把分数的分母等于1,转成带等式约束的最优化问题,拉格朗日,求导=0,解得最优投影方向w;
有监督信息时,用LDA;无监督信息时,用PCA