前言:关于主成分分析(Principle Component Analysis,PCA)的算法公式推导,文中若有写的不对的地方或者没写明白的地方,欢迎读者提出并交流。
1,算法定义
算法输入:一堆点集 X = [ x 1 , x 2 , . . . , x m ] , 其 中 x i ∈ R n , i = 1 , 2 , . . . , m X = [x_1, x_2, ...,x_m],其中x_i \in \mathbb{R}^n, ~~i = 1,2,...,m X=[x1,x2,...,xm],其中xi∈Rn, i=1,2,...,m
算法输出: 一堆主向量 z 1 , z 2 , . . . , z k ∈ R n , k ≤ n z_1, z_2,...,z_k \in \mathbb{R}^n, ~~k \le n z1,z2,...,zk∈Rn, k≤n
问1:什么是最重要的主成分?
答1:一个方向,使得投影到该方向上的所有数据点的方差最大。
问2:如何获取第二重要的主成分?
答2:从原始的数据点中去掉最重要的主成分,即数据点减去投影后,再从中找到最重要的主成分。
问3:如何获取第三重要的主成分?
答3:重复上面的步骤。
2,算法步骤
-
1,将数据点规范化为0均值,因为我们只关心这堆数据点的方向。
X ~ = [ x ~ 1 , x ~ 2 , . . . , x ~ m ] , 其 中 x ~ i = x i − 1 m ∑ i = 1 m x i , i = 1 , 2 , . . . , m \widetilde{X} = [\widetilde{x}_1, \widetilde{x}_2, ...,\widetilde{x}_m], 其中\widetilde{x}_i = x_i - \frac{1}{m} \displaystyle\sum_{i=1}^m x_i,i = 1,2,...,m X =[x 1,x 2,...,x m],其中x i=xi−m1i=1∑mxi,i=1,2,...,m -
2,PCA的目的是找到一个方向 z ∈ R n z \in \mathbb{R}^n z∈Rn(其中 ∣ ∣ z ∣ ∣ 2 = 1 ||z||_2 = 1 ∣∣z∣∣2=1),使得 X X X (或者 X ~ \widetilde{X} X )中的数据点投影到该方向后的方差最大(无论点云是否进行了去中心化操作,其向 z z z 轴方向的投影不变)。
- X ~ \widetilde{X} X 中的点往 z z z方向的投影为: x ~ i T z \widetilde{x}_i^T z x iTz
- 投影的均方差为: 1 m ∑ i = 1 m ( x ~ i T z ) 2 = 1 m ∑ i = 1 m ( x ~ i T z ) T ( x ~ i T z ) = 1 m ∑ i = 1 m z T x ~ i x ~ i T z \frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^2 = \frac{1}{m} \displaystyle\sum_{i=1}^m (\widetilde{x}_i^T z)^T (\widetilde{x}_i^T z) =\frac{1}{m} \displaystyle\sum_{i=1}^m z^T \widetilde{x}_i \widetilde{x}_i^T z m1i=1∑m(x
iTz)2=m1i=1∑m(x
iTz)T(x
iTz)=m1i=1∑mzTx
ix
iTz
为了后面书写方便,用符号 x i x_i xi代替去中心后的点 x ~ i \widetilde{x}_i x i,因此投影均方差可写作: 1 m ∑ i = 1 m z T x i x i T z \frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z m1i=1∑mzTxixiTz - 将投影均方差写成矩阵的形式有: 1 m ∑ i = 1 m z T x i x i T z = 1 m z T X X T z \frac{1}{m} \displaystyle\sum_{i=1}^m z^T x_i x_i^T z = \frac{1}{m}~z^T XX^T z m1i=1∑mzTxixiTz=m