PCA算法推导
PCA原理概述
PCA是主成分分析(Principal Components Analysis)的简称。这是一种数据降维技术,用于数据预处理。一般我们获取的原始数据维度都很高,那么我们可以运用PCA算法降低特征维度。这样不仅可以去除无用的噪声,还能减少很大的计算量。
PCA和SVD类似,仍然是一种数据压缩的算法。
找到诸如 A A ′ AA^\prime AA′和 B B ′ BB^\prime BB′ 距离最小的主方向u,使得所有原始点与投影点之间的误差最小,即最小重构误差。
样本中心化
在做PCA之前,一般要先对样本点中心化,即样本矩阵取均值:
最小重构误差公式推导
先假设只有一个样本 x x x(用向量 x → \overrightarrow{x}