PCA(主成分分析)是降维中最经典的方法,其推导求解的常用两种方法包括最大方差理论(样本点到超平面的投影都尽可能分开)以及最小平方误差理论(样本点到超平面的距离都足够近),以上两种方法都需要进行严格意义上的数学推导,而本文想从另一个角度——相似矩阵的几何意义——直观理解PCA的原理。
1. 相似矩阵的几何意义
以三维向量空间为例,任何一个向量都可以用一组基向量的某个线性组合表示: v ⃗ = a 1 e 1 + a 2 e 2 + a 3 e 3 = a 1 ′ e 1 ′ + a 2 ′ e 2 ′ + a 3 ′ e 3 ′ \vec{v}=a_{1}e_{1}+a_{2}e_{2}+a_{3}e_{3}=a_{1}^{'}e_{1}^{'}+a_{2}^{'}e_{2}^{'}+a_{3}^{'}e^{'}_{3} v=a1e1+a2e2+a3e3=a1′e1′+a2′e2′+a3′e3′, e 1 , e 2 , e 3 与 e 1 ′ , e 2 ′ , e 3 ′ e_{1},e_{2},e_{3}与e_{1}^{'},e^{'}_{2},e^{'}_{3} e1,e2,e3与e1′,e2′,e3′是三维空间的两组不同基向量,而两组不同基向量间可通过坐标变换实现相互转化:
v ⃗ = ( e 1 ′ , e 2 ′ , e 3 ′ ) ( a 1 ′ a 2 ′ a 3 ′ ) = ( e 1 , e 2 , e 3 ) ( w 11 w 12 w 13 w 21 w 22 w 23 w 31 w 32 w 33 ) ( a 1 ′ a 2 ′ a 3 ′ ) = ( e 1 , e 2 , e 3 ) ( a 1 a 2 a 3 ) \vec{v}=\begin{pmatrix}e_{1}^{'},e^{'}_{2},e^{'}_{3}\end{pmatrix}\begin{pmatrix}a_{1}^{'}\\ a_{2}^{'}\\a_{3}^{'}\end{pmatrix}= \begin{pmatrix}e_{1},e_{2},e_{3}\end{pmatrix} \begin{pmatrix} w_{11}& w_{12} &w_{13} \\ w_{21} & w_{22}&w_{23} \\ w_{31} &w_{32}&w_{33} \end{pmatrix}\begin{pmatrix}a_{1}^{'}\\ a^{'}_{2}\\a^{'}_{3}\end{pmatrix}= \begin{pmatrix}e_{1},e_{2},e_{3}\end{pmatrix}\begin{pmatrix}a_{1}\\ a_{2}\\a_{3}\end{pmatrix} v=(e1′,e2′,e3′)⎝⎛a1′a2′a3′⎠⎞=(e1,e2,e3)⎝⎛w11w21w31w12w22w32w13w23w33⎠⎞⎝⎛a1′a2′a3′⎠⎞=(e1,e2,e3)⎝⎛a1a2a3⎠⎞
e 1 , e 2 , e 3 与 e 1 ′ , e 2 ′ , e 3 ′ e_{1},e_{2},e_{3}与e_{1}^{'},e^{'}_{2},e^{'}_{3} e1,e2,e3与e1′,e2′,e3′之间的坐标变换由 W 3 × 3 = ( w 11 w 12 w 13 w 21 w 22 w 23 w 31 w 32 w 33 ) W_{3×3}= \begin{pmatrix}w_{11}& w_{12} &w_{13} \\ w_{21} & w_{22}&w_{23} \\w_{31} &w_{32}&w_{33} \end{pmatrix} W3×3=⎝⎛w11w21w31w12w22w32w13w23w33⎠⎞表示,为保证每组基向量线性无关, W 3 × 3 W_{3×3} W3×3矩阵必须为可逆矩阵(行列式>0)(坐标变换是一种不改变原线性空间维度的特殊线性变换),因此有 ( e 1 ′ , e 2 ′ , e 3 ′ ) = ( e 1 , e 2 , e 3 ) W 3 × 3 , ( a 1 ′ a 2 ′ a 3 ′ ) = W 3 × 3 − 1 ( a 1 a 2 a 3 ) (e_{1}^{'},e^{'}_{2},e^{'}_{3})=(e_{1},e_{2},e_{3})W_{3×3},\begin{pmatrix}a_{1}^{'}\\ a_{2}^{'}\\a^{'}_{3}\end{pmatrix}=W_{3×3}^{-1}\begin{pmatrix}a_{1}\\ a_{2}\\a_{3}\end{pmatrix} (e1′,e2′,e3′)=(e1,e2,e3)W3×3,⎝⎛a1′a2′a3′⎠⎞=W3×3−1