白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:
- 特征之间相关性较低
- 所有特征具有相同的方差
根据白化的两个要求,我们首先是降低特征之间的相关性。在PCA中,我们选取前K大的特征值的特征向量作为投影方向,如果K的大小为数据的维度n,把这K个特征向量组成选择矩阵U(每一列为一个特征向量),为旋转后的数据。如果K<n,就是PCA降维,如果K=n,则降低特征间相关性降低。
第二个要求是每个输入特征具有单位方差,以直接使用作为缩放因子来缩放每个特征,计算公式,经过PCA白化处理的数据分布如下图所示,此时的协方差矩阵为单位矩阵I。