(一)简介
1.PCA(主成分分析)是一种能够极大提升无监督特征学习速度的数据降维算法,其将原始数据的n维空间映射到k维特征空间,其中k<n,这k维特征是全新的正交特征,并且满足最大方差约束,也就是意味着这k维特征可以很好地区分原始数据,是最主要的成分;
2.白化(whitening/sphering)的目的就是降低输入的冗余性;更正式的说,我们希望通过白化过程使得学习算法的输入具有如下性质:(1)特征之间相关性较低;(2)所有特征具有相同的方差。
3.常见的白化预处理有:(1)PCA白化;(2)ZCA白化;
(二)PCA算法
1.假设原始数据以及降维矩阵如下:
其中n表示原始数据的维数,m表示样本数目,k表示特征空间的维数;(X已经做过zero-mean预处理,也就是说每个维数的mean均为0)
2.为了满足k维特征空间最大方差以及正交的约束,有如下目标函数:
等价于:
3.为了优化上述的目标函数,我们采用的是广义特征值分解的方法
(1)引入式子: