1.PCA的基本原理
主成分分析(Principle component analysis)简称PCA,是常用的降维方法之一。通过将n维的数据集降维到n'低纬度空间;使得降维之后数据集尽可能的代表原数据集同时降维之后的损失尽可能的小。
如图1所示,在R中使用rnorm函数生成正态分布数据集在二维空间的分布;我们希望找到一个维度能够代表数据集在二维空间中的分布特征,而这样的维度有无数种.如何找到最好的那个维度使得数据集经过变换后尽可能的保留原始数据集的特征。
图1中有V1与V2两个一维的特征向量,从图1中可以看出在V1特征向量上能够更好的反应原始数据集的特征。数据集映射在V1的方向上进行映射后,映射后的数据集从低纬度重构出高纬度数据集D',使得D'与原始数据集尽可能的相似,也就是D'中的点与原始数据集中的点的距离最小;或者可以从另一个角度理解为原始数据经过映射后在低纬空间中可以区分开来。这对应着PCA中两种优化目标:最近重构性与最大可分性。同样的当数据集从二维推广到任意维度时,我们的优化目标也就变成样本点在一个超平面进行重构后的距离最近或者在映射到超平面后样本内方差最大化。
2.1基于最近重构性进行优化
假定我们有一个m个n维的数据集 ,假定在每个维度上都进行了中心化,并且将原先的n维属性投影到新的坐标系使得这n个维度的属性构成标准的正交基向量 ),即任意两个w满足 ;进行正交化主要是考虑在降维的