PCA(principal component analysis )即主成分分析,是一种常用的降维方法。
假设我们用降维操作处理一个二维的数据集(二维压缩成一维):
在这个数据集上,我们可以计算出两个方向,我们称为主方向u1和次方向u2,其中u1的值是数据集协方差矩阵的最大特征值对应的特征向量,u2是次大特征值对应的特征向量。数据集的协方差矩阵(这个符号很像求和但不是):
我们现在用U=[u1 u2]处理x,由矩阵变换可知这相当于一个旋转变换:
上图中x轴为u1,y轴为u2
为了降维,我们只选择一个维度,比如u1,那么
这里就有一个问题了,我们怎么选择去掉的维度呢?这就要引入维度重要性的判断标准了:
是特征值按递减排列。这里的意思是数据每个维度对整体的贡献可以用特征值的大小来衡量,越大的特征值贡献越大,越应该保留。
Whitening:白化指的是对特征进行预处理,使得数据满足:
1.不同特征间相关性尽量小
2.各特征的协方差为一
参考练习:http://deeplearning.stanford.edu/wiki/index.php/Exercise:PCA_in_2D
close all
%%===========================