PCA算法另外一种理解角度是:最小化点到投影后点的距离平方和.
假设我们有m个样本点,且都位于n维空间 中,而我们要把原n维空间中的样本点投影到k维子空间中去(k<n),并使得这m个点到投影点的距离的平方和最小.我们进一步假设投影矩阵P已经是标准化过的了( ,其中 是n维的单位向量,且这组基向量两两正交)
假设我们有m个样本点,且都位于n维空间 中,而我们要把原n维空间中的样本点投影到k维子空间中去(k<n),并使得这m个点到投影点的距离的平方和最小.我们进一步假设投影矩阵P已经是标准化过的了( ,其中 是n维的单位向量,且这组基向量两两正交)
投影矩阵具有如下性质:
记每一个点对应的投影误差为,且投影误差的表达式为,那么我们要最小化的表达式为:
为了后面的推导方便,我将上式除以即样本个数),由于其是定值,所以不影响我们问题的求解
求解上面的要用到最大方差解释中使用的Lagrangian Multiplier,在此不再赘述,而最后求得的就是协方差矩阵的前k个特征向量