PCA(principal components analysis),是一种降维和去除相关性的方法,它通过方差来评价特征的价值,认为方差大的特征包含信息多,应予以保留。
,每个样本X是d*1维度。
首先对每一维特征0均值处理,求得特征的协方差矩阵A,那么
在分析方差时,所以通过协方差矩阵特征值大小来看方差大小。所以将协方差矩阵相似对角化,协方差矩阵相似也就是对样本空间进行坐标变换。特征值就是变换后空间中特征的方差,因为变换后协方差矩阵变成对角形式,所以去除了相关性。
这样我们可以对特征值从大到下排序,选择前k个,然后把后面小的特征值设置为0,相应的特征向量也就是0了,我们得到变换后的数据
这样通过坐标变换和挑选特征值就实现了去相关和降维。
白化是将PCA去相关之后将每一特征的方差归一化到1,也就是吧变换后的特征都除以各自的标准差,
当然如果在这过程中还想实现降维效果,可以设置保留方差的比例,如93%,筛除特征值即可。