主成分分析基本原理

课堂翻译

主成分分析

8.2 基本思想和数学模型

8.2.1 基本思想

主成分通过使用少量的综合性的变量来表示原始数据绝大部分的变化,因此,提出了一种协方差结构的简单描述。

综合变量是原始变量的线性组合,也被叫做主成分。

几何解释

通过旋转原始数据得到一个新的坐标系,使得新的坐标能够表示最大变量的方向

8.2.2 数学模型

原始变量: X = [ x 1 , x 2 , ⋯   , x p ] X=[x_1,x_2,\cdots,x_p] X=[x1,x2,,xp],每一个 x i x_i xi是一个随机变量,我们假设 E ( x i ) = 0 E(x_i)=0 E(xi)=0

第一个主成分: f 1 = a 11 x 1 + a 12 x 2 + ⋯ + a 1 p x p f_1=a_{11}x_1+a_{12}x_2+\cdots+a_{1p}x_p f1=a11x1+a12x2++a1pxp

其中 a 1 = [ a 11 , a 12 , ⋯   , a 1 p ] ′ a_1=[a_{11},a_{12},\cdots,a_{1p}]' a1=[a11,a12,,a1p]是下列问题的解:

m a x   v a r ( f 1 ) = a 1 ′ ∑ a 1 , s . t . ∣ ∣ a 1 ∣ ∣ 2 = 1 max\space var(f_1)=a_1'\sum a_1 ,\qquad s.t.\quad||a_1||^2=1 max var(f1)=a1a1s.t.a12=1
第二主成分: f 2 = a 21 x 1 + a 22 x 2 + ⋯ + a 2 p x p f_2=a_{21}x_1+a_{22}x_2+\cdots+a_{2p}x_p f2=a21x1+a22x2++a2pxp,除了对 a 1 a_1 a1施加的约束外,我们还需要令 f 1 f_1 f1 f 2 f_2 f2不相关。
c o v ( f 1 , f 2 ) = c o v ( ∑ j = 1 p a 1 j x j , ∑ k = 1 p a 2 k x k ) ) = a 1 ′ ∑ a 2 = 0 cov(f_1,f_2)=cov\left(\sum_{j=1}^p a_{1j}x_j,\sum_{k=1}^p a_{2k}x_k)\right)=a_1'\sum a_2=0 cov(f1,f2)=cov(j=1pa1jxj,k=1pa2kxk))=a1a2=0
因此, a 2 = [ a 21 , a 22 , ⋯   , a 2 p ] ′ a_2=[a_{21},a_{22},\cdots,a_{2p}]' a2=[a21,a22,,a2p]是下列问题的答案:
m a x   v a r ( f 2 ) = a 2 ′ ∑ a 2 max \space var(f_2)=a_2'\sum a_2 max var(f2)=a2a2

s . t . ∣ ∣ a 2 ∣ ∣ = 1 ,   c o v ( f 1 , f 2 ) = a 1 ′ ∑ a 2 = 0 s.t.\quad ||a_2||=1,\space cov(f_1,f_2)=a_1'\sum a_2=0 s.t.a2=1, cov(f1,f2)=a1a2=0

i i i个主成分: f i = a i 1 x 1 + a i 2 x 2 + ⋯ + a i p x p f_i=a_{i1}x_1+a_{i2}x_2+\cdots +a_{ip}x_p fi=ai1x1+ai2x2++aipxp

其中 a i = [ a i 1 , a i 2 , ⋯   , a i p ] ′ a_i=[a_{i1},a_{i2},\cdots ,a_{ip}]' ai=[ai1,ai2,,aip]是以下问题的解:
m a x   v a r ( f i ) = a i ′ ∑ a i s . t .   ∣ ∣ a i ∣ ∣ 2 = 1 , c o v ( f 1 , f i ) = a 1 ′ ∑ a i = 0 , c o v ( f 2 , f i ) = a 2 ′ ∑ a i = 0 , ⋮ c o v ( f i − 1 , f i ) = a i − 1 ′ ∑ a i = 0 max\space var(f_i)=a_i'\sum a_i\\ \begin{aligned} s.t.\quad&\space||a_i||_2=1,\\ &cov(f_1,f_i)=a_1'\sum a_i=0,\\ &cov(f_2,f_i)=a_2'\sum a_i=0,\\ &\vdots \\ &cov(f_{i-1},f_i)=a_{i-1}'\sum a_i=0 \end{aligned} max var(fi)=aiais.t. ai2=1,cov(f1,fi)=a1ai=0,cov(f2,fi)=a2ai=0,cov(fi1,fi)=ai1ai=0

第一主成分的解

现在我们来考虑最大值问题
m a x   v a r ( f 1 ) = a 1 ′ ∑ a 1 s . t .   ∣ ∣ a 1 ∣ ∣ 2 = 1 max\space var(f_1)=a_1'\sum a_1\qquad s.t.\space||a_1||^2=1 max var(f1)=a1a1s.t. a12=1
注意 ∑ \sum 是一个对称的非负定矩阵,则存在一个正交矩阵 U = [ u 1 ∣ u 2 ∣ ⋯ ∣ u p ] U=[u_1|u_2|\cdots|u_p] U=[u1u2up]使得

U T ∑ U = Λ = [ λ 1 λ 2 ⋱ λ p ] ( 8 − 1 ) U^T\sum U=\Lambda= \begin{bmatrix} {\lambda_1}&{}&{}&{}\\ {}&{\lambda_2}&{}&{}\\ {}&{}&{\ddots}&{}\\ {}&{}&{}&{\lambda_p} \end{bmatrix} (8-1) UTU=Λ=λ1λ2λp(81)
其中 λ 1 ≥ λ 2 ≥ ⋯   ≥ λ p ≥ 0 \lambda_1\geq\lambda_2\geq\cdots\ \geq\lambda_p\geq0 λ1λ2 λp0是协方差矩阵 ∑ \sum 的特征值。

从公式8-1中我们得出
∑ = U Λ U T = ∑ i = 1 p λ i u i u i T \sum=U\Lambda U^T=\sum_{i=1}^p\lambda_iu_iu_i^T =UΛUT=i=1pλiuiuiT

v a r ( f 1 ) = a 1 T ∑ a 1 = a 1 T ( ∑ i = 1 P λ i u i u i T ) a 1 = ∑ i = 1 p λ i a 1 T u i u i T a 1 = ∑ i = 1 p λ i ⟨ a 1 , u i ⟩ 2 ≤ λ 1 ∑ i = 1 p ⟨ a 1 , u i ⟩ 2 = λ 1 a 1 T ( ∑ i = 1 p u i u i T ) a 1 = λ 1 a 1 T a 1 = λ 1 \begin{aligned} var(f_1) &=a_1^T\sum a_1 =a_1^T\left(\sum_{i=1}^P\lambda_iu_iu_i^T\right)a_1 =\sum_{i=1}^p\lambda_ia_1^Tu_iu_i^Ta_1\\ &=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2\\ &\leq\lambda_1\sum_{i=1}^p\langle a_1,u_i\rangle^2 =\lambda_1a_1^T\left(\sum_{i=1}^pu_iu_i^T\right)a_1 =\lambda_1a_1^Ta_1=\lambda_1 \end{aligned} var(f1)=a1Ta1=a1T(i=1PλiuiuiT)a1=i=1pλia1TuiuiTa1=i=1pλia1,ui2λ1i=1pa1,ui2=λ1a1T(i=1puiuiT)a1=λ1a1Ta1=λ1

因此 λ 1 \lambda_1 λ1 v a r ( f 1 ) var(f_1) var(f1)的一个上界。

另一方面,这个上界是可解的。实际上,如果我们令 a 1 = u 1 a_1=u_1 a1=u1,则有
v a r ( f 1 ) = ∑ i = 1 p λ i ⟨ a 1 , u i ⟩ 2 = ∑ i = 1 p λ i ⟨ u 1 , u i ⟩ 2 = λ 1 var(f_1)=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2=\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle^2=\lambda_1 var(f1)=i=1pλia1,ui2=i=1pλiu1,ui2=λ1
以上,我们证明了以下结论:

结论1

第一主成分是 f 1 = u 11 x 1 + u 12 x 2 + ⋯ + u 1 p x p f_1=u_{11}x_1+u_{12}x_2+\cdots+u_{1p}x_p f1=u11x1+u12x2++u1pxp

u 1 = [ u 11 , u 12 , ⋯   , u 1 p ] T u_1=[u_{11},u_{12},\cdots,u_{1p}]^T u1=[u11,u12,,u1p]T ∑ \sum 关于最大特征值 λ 1 \lambda_1 λ1的单位特征向量,此外 v a r ( f 1 ) = λ 1 var(f_1)=\lambda_1 var(f1)=λ1

第二主成分求解

先考虑最大化问题:
m a x   v a r ( f 2 ) = a 2 T ∑ a 2 s . t . ∣ ∣ a 2 ∣ ∣ 2 = 1 ,   c o v ( f 1 , f 2 ) = u 1 T ∑ a 2 = 0 max\space var(f_2)=a_2^T\sum a_2\\ s.t.\quad ||a_2||^2=1,\space cov(f_1,f_2)=u_1^T\sum a_2=0 max var(f2)=a2Ta2s.t.a22=1, cov(f1,f2)=u1Ta2=0

c o v ( f 1 , f 2 ) = u 1 T ∑ a 2 = u 1 T ( ∑ i = 1 p λ i u i u i T ) a 2 = ∑ i = 1 p λ i u 1 T u i u i T a 2 = ∑ i = 1 p λ i ⟨ u 1 , u i ⟩ ⟨ u i , a 2 ⟩ = λ 1 ⟨ u 1 , a 2 ⟩ \begin{aligned} cov(f_1,f_2) &=u_1^T\sum a_2=u_1^T\left(\sum_{i=1}^p\lambda_iu_iu_i^T\right)a_2\\ &=\sum_{i=1}^p\lambda_iu_1^Tu_iu_i^Ta_2 =\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle\langle u_i,a_2\rangle=\lambda_1\langle u_1,a_2\rangle \end{aligned} cov(f1,f2)=u1Ta2=u1T(i=1pλiuiuiT)a2=i=1pλiu1TuiuiTa2=i=1pλiu1,uiui,a2=λ1u1,a2

因此 c o v ( f 1 , f 2 ) = 0 cov(f_1,f_2)=0 cov(f1,f2)=0可以推出 ⟨ u 1 , a 2 ⟩ = 0 \langle u_1,a_2\rangle=0 u1,a2=0

与第一主成分的求解过程相同,可得
v a r ( f 2 ) = ∑ i = 1 p λ i ⟨ a 2 , u i ⟩ 2 = ∑ i = 2 p λ i ⟨ a 2 , u i ⟩ 2 ≤ λ 2 ∑ i = 2 p ⟨ a 2 , u i ⟩ 2 = λ 2 ∑ i = 1 p ⟨ a 2 , u i ⟩ 2 = λ 2 var(f_2)=\sum_{i=1}^p\lambda_i\langle a_2,u_i\rangle^2=\sum_{i=2}^p\lambda_i\langle a_2,u_i\rangle^2\\ \leq\lambda_2\sum_{i=2}^p\langle a_2,u_i\rangle^2=\lambda_2\sum_{i=1}^p\langle a_2,u_i\rangle^2=\lambda_2 var(f2)=i=1pλia2,ui2=i=2pλia2,ui2λ2i=2pa2,ui2=λ2i=1pa2,ui2=λ2
因此 λ 2 \lambda_2 λ2 v a r ( f 2 ) var(f_2) var(f2)的一个上界,并且这个上界是可解的,实际上,我们令 a 2 = u 2 a_2=u_2 a2=u2,那么
v a r ( f 2 ) = ∑ i = 1 p λ i ⟨ u 2 , u i ⟩ 2 = λ 2 var(f_2)=\sum_{i=1}^p\lambda_i\langle u_2,u_i\rangle^2=\lambda_2 var(f2)=i=1pλiu2,ui2=λ2
至此,我们证明了下述结论:

结论2

第二主成分是 f 2 = u 21 x 1 + u 22 x 2 + ⋯ + u 2 p x p f_2=u_{21}x_1+u_{22}x_2+\cdots+u_{2p}x_p f2=u21x1+u22x2++u2pxp,而 u 2 = [ u 21 , u 22 , ⋯   , u 2 p ] T u_2=[u_{21},u_{22},\cdots,u_{2p}]^T u2=[u21,u22,,u2p]T ∑ \sum 关于第二大特征值 λ 2 \lambda_2 λ2的单位特征向量,此外 v a r ( f 2 ) = λ 2 var(f_2)=\lambda_2 var(f2)=λ2

第三主成分、第四主成分,等等,这些都可以类似的推导出来。

一般结论

定理8.1

∑ \sum 为原始变量 X = [ x 1 , x 2 , ⋯   , x p ] X=[x_1,x_2,\cdots,x_p] X=[x1,x2,,xp]的协方差矩阵, λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p\geq0 λ1λ2λp0 ∑ \sum 的特征值, u 1 , u 2 , ⋯   , u p u_1,u_2,\cdots,u_p u1,u2,,up是各特征值对应的单位特征向量。则第i个主成分由 f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p \quad f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p\quad fi=ui1x1+ui2x2++uipxp给出。

f i f_i fi的方差 v a r ( f i ) = λ i var(f_i)=\lambda_i var(fi)=λi。如果一些特征值 λ i \lambda_i λi相等,那么对应的主成分 f i f_i fi并不唯一。

8.3 一些重要结论

定理8.2

主成分 F = [ f 1 , f 2 , ⋯   , f p ] F=[f_1,f_2,\cdots,f_p] F=[f1,f2,,fp]不相关,即 c o v ( F , F ) cov(F,F) cov(F,F)是对角矩阵。

证明:从定理8.1可知

f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p ,   i = 1 , 2 , ⋯   , p f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p fi=ui1x1+ui2x2++uipxp, i=1,2,,p

u i = [ u i 1 , u i 2 , ⋯   , u i p ] T u_i=[u_{i1},u_{i2},\cdots,u_{ip}]^T ui=[ui1,ui2,,uip]T是协方差阵 ∑ \sum 对应于特征值 λ i \lambda_i λi的特征向量。
c o v ( f i , f j ) = c o v ( ∑ k = 1 p u i k x k , ∑ l = 1 p u j l x l ) = ∑ k = 1 p ∑ l = 1 p u i k u j l c o v ( x k , x l ) = u i ∑ u j = λ j u i T u j = λ j δ i , j \begin{aligned} cov(f_i,f_j) &=cov\left( \sum_{k=1}^pu_{ik}x_k,\sum_{l=1}^pu_{jl}x_l \right) \\ &=\sum_{k=1}^p\sum_{l=1}^pu_{ik}u_{jl}cov(x_k,x_l)\\ &=u_i\sum u_j=\lambda_ju_i^Tu_j=\lambda_j\delta_{i,j} \end{aligned} cov(fi,fj)=cov(k=1puikxk,l=1pujlxl)=k=1pl=1puikujlcov(xk,xl)=uiuj=λjuiTuj=λjδi,j
定理8.3

  ∑   \space\sum\space   为原始变量   X = [ x 1 , x 2 , ⋯   , x p ]    \space X=[x_1,x_2,\cdots,x_p]\space\space  X=[x1,x2,,xp]  的协方差矩阵, λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0   \lambda_1\ge\lambda_2\ge\cdots\ge\lambda_p\ge0\space λ1λ2λp0    ∑   \space\sum\space   的特征值,并且   f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p ,   i = 1 , 2 , ⋯   , p   \space f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p\space  fi=ui1x1+ui2x2++uipxp, i=1,2,,p 是主成分。


∑ i = 1 p v a r ( f i ) = ∑ i = 1 p λ i = ∑ i = 1 p σ i i = ∑ i = 1 p v a r ( x i ) \sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^pvar(x_i) i=1pvar(fi)=i=1pλi=i=1pσii=i=1pvar(xi)
其中   σ i i   \space\sigma_{ii}\space  σii 是协方差矩阵   ∑   \space\sum\space   的对角线元素。

方差不变法则

证明:从定理8.1 我们得知 v a r ( f i ) = λ i var(f_i)=\lambda_i var(fi)=λi,则
∑ i = 1 p v a r ( f i ) = ∑ i = 1 p λ i = t r a c e ( Λ ) ( 8 − 2 ) \sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=trace(\Lambda)\qquad\qquad(8-2) i=1pvar(fi)=i=1pλi=trace(Λ)(82)
由公式8-1,有   U T ∑ U = Λ   \space U^T\sum U=\Lambda\space  UTU=Λ ,其中   U   \space U\space  U 是正交矩阵,因此,我们根据 t r a c e ( A B ) = t r a c e ( B A ) trace(AB)=trace(BA) trace(AB)=trace(BA)   U U T = I   \space UU^T=I\space  UUT=I 推导出
t r a c e ( Λ ) = t r a c e ( U T ∑ U ) = t r a c e ( U U T ∑ ) = t r a c e ( ∑ ) ( 8 − 3 ) trace(\Lambda)=trace(U^T\sum U)=trace(UU_T\sum)=trace(\sum)\qquad\qquad(8-3) trace(Λ)=trace(UTU)=trace(UUT)=trace()(83)
由公式(8-2)和(8-3),命题得证。


练习:证明 t r a c e ( B A ) = t r a c e ( A B ) trace(BA)=trace(AB) trace(BA)=trace(AB)


定理8.4

定理8.3表明总体方差为
σ T = ∑ i = 1 p σ i i = ∑ i = 1 p λ i \sigma_T=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^p\lambda_i σT=i=1pσii=i=1pλi
因此,第   k   \space k \space  k 个主成分的方差解释率为:
λ k σ T = λ k λ 1 + λ 1 + ⋯ + λ p \frac{\lambda_k}{\sigma_T}=\frac{\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p} σTλk=λ1+λ1++λpλk
则前   k   \space k \space  k 个主成分的方差解释率为:
λ 1 + λ 1 + ⋯ + λ k λ 1 + λ 1 + ⋯ + λ p \frac{\lambda_1+\lambda_1+\cdots+\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p} λ1+λ1++λpλ1+λ1++λk
我们称前者为方差贡献率,后者为总体贡献率。

在许多真实案例中,有大量的原始变量,但是前一个、两个或三个成分就可以解释大部分(例如:80%~90%)的总体方差,因此,在避免损失大量信息的前提下,我们可以使用这些成分来代替原始的   p   \space p \space  p 个变量。

定理8.5

  ∑   \space\sum\space   是原始变量   X = [ x 1 , x 2 , ⋯   , x p ]   \space X=[x_1,x_2,\cdots,x_p]\space  X=[x1,x2,,xp] 的协方差矩阵,并且
f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p fi=ui1x1+ui2x2++uipxp
是主成分,则
ρ f i , x k = u i k λ i σ k k \rho_{f_i,x_k}=\frac{u_{ik}\sqrt{\lambda_i}}{\sqrt{\sigma_{kk}}} ρfi,xk=σkk uikλi
其中   ρ f i , x k   \space \rho_{f_i,x_k} \space  ρfi,xk    f i   \space f_i \space  fi    x k   \space x_k \space  xk 的相关系数。

证明

  c k = [ c o v ( x 1 , f k ) , c o v ( x 2 , f k ) , ⋯   , c o v ( x p , f k ) ] T   \space c_k=[cov(x_1,f_k),cov(x_2,f_k),\cdots,cov(x_p,f_k)]^T \space  ck=[cov(x1,fk),cov(x2,fk),,cov(xp,fk)]T ,则有   c k = ∑ T u k = ∑ u k = λ k u k   \space c_k=\sum^Tu_k=\sum u_k=\lambda_ku_k\space  ck=Tuk=uk=λkuk 

因此有
ρ ( x i , f k ) = c o v ( x i , f k ) v a r ( f k ) ⋅ v a r ( x i ) = λ k u i k λ k σ i i = u i k λ k σ i i \begin{aligned} \rho(x_i,f_k) =\frac{cov(x_i,f_k)}{\sqrt{var(f_k)}\cdot\sqrt{var(x_i)}} \\ =\frac{\lambda_ku_{ik}}{\sqrt{\lambda_k}\sqrt{\sigma_{ii}}} =\frac{u_{ik}\sqrt{\lambda_k}}{\sqrt{\sigma_{ii}}} \end{aligned} ρ(xi,fk)=var(fk) var(xi) cov(xi,fk)=λk σii λkuik=σii uikλk
定义8.1

我们称   ρ ( x i , f k )   \space\rho(x_i,f_k)\space  ρ(xi,fk) 为因子载荷,并且称矩阵   L = [ l i k ] i , k = 1 , 2 , ⋯   , p   \space L=[l_{ik}]_{i,k=1,2,\cdots,p} \space  L=[lik]i,k=1,2,,p 为因子载荷矩阵。

从定理8.4,我们可以推导出
L = D − 1 / 2 U Λ 1 / 2 ,   D = [ σ 11 σ 22 ⋱ σ p p ] ,   Λ = [ λ 1 λ 2 ⋱ λ p ] L=D^{-1/2}U\Lambda^{1/2},\space D= \left[ \begin{matrix} \sigma_{11}&&& \\ & \sigma_{22}&& \\ && \ddots & \\ &&& \sigma_{pp} \end{matrix} \right],\space \Lambda= \left[ \begin{matrix} \lambda_{1}&&& \\ & \lambda_{2}&& \\ && \ddots & \\ &&& \lambda_{p} \end{matrix} \right] L=D1/2UΛ1/2, D=σ11σ22σpp, Λ=λ1λ2λp
如果原始变量的方差都等于1,那么   D = I   \space D=I \space  D=I ,因此有   L = U Λ 1 / 2 \space L=U\Lambda^{1/2}  L=UΛ1/2

定理8.6

载荷因子   I j k   \space I_{jk}\space  Ijk 满足下列等式:
∑ k = 1 p l i k 2 = 1 ,    i = 1 , 2 , ⋯   , p \sum_{k=1}^pl_{ik}^2=1,\space\space i=1,2,\cdots,p k=1plik2=1,  i=1,2,,p
而且,如果   v a r ( x i ) = 1   \space var(x_i)=1\space  var(xi)=1 对于所有的原始变量   x i   \space x_i\space  xi 都成立,那么
∑ i = 1 p l i k 2 = λ k ,    k = 1 , 2 , ⋯   , p \sum_{i=1}^pl_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p i=1plik2=λk,  k=1,2,,p
证明

  X = [ x 1 , x 2 , ⋯   , x p ]   \space X=[x_1,x_2,\cdots,x_p]\space  X=[x1,x2,,xp] 是原始变量的行向量,并且   F = [ f 1 , f 2 , ⋯   , f p ]   \space F=[f_1,f_2,\cdots,f_p]\space  F=[f1,f2,,fp] 是行向量的主成分。则有
F = X U F=XU F=XU
其中   U   \space U \space  U 是正交矩阵,正交矩阵的第   k   \space k \space  k 列是协方差矩阵   ∑   \space\sum\space   关于特征值   u k   \space u_k\space  uk 的特征向量   u k   \space u_k\space  uk ,因此 X = F U T X=FU^T X=FUT
x i = u i 1 f 1 + u i 2 f 2 + ⋯ + u i p f p ,    i = 1 , 2 , ⋯   , p x_i=u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p,\space\space i=1,2,\cdots,p xi=ui1f1+ui2f2++uipfp,  i=1,2,,p

v a r ( x i ) = v a r ( u i 1 f 1 + u i 2 f 2 + ⋯ + u i p f p ) = u i 1 2 v a r ( f 1 ) + ⋯ + u i p 2 v a r ( f p ) = u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p \begin{aligned} var(x_i) &=var(u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p) \\ &=u_{i1}^2var(f_1)+\cdots+u_{ip}^2var(f_p) \\ &=u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p \end{aligned} var(xi)=var(ui1f1+ui2f2++uipfp)=ui12var(f1)++uip2var(fp)=ui12λ1+ui22λ2++uip2λp

l i k 2 = ρ ( x i , f k ) 2 = c o v ( x i , f k ) 2 v a r ( x i ) v a r ( f k ) = u i k 2 λ k 2 ( u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p ) λ k = u i k 2 λ k u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p \begin{aligned} l_{ik}^2 =\rho(x_i,f_k)^2 &=\frac{cov(x_i,f_k)^2}{var(x_i)var(f_k)} \\ &=\frac{u_{ik}^2\lambda_k^2}{(u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p)\lambda_k} \\ &=\frac{u_{ik}^2\lambda_k}{u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p} \end{aligned} lik2=ρ(xi,fk)2=var(xi)var(fk)cov(xi,fk)2=(ui12λ1+ui22λ2++uip2λp)λkuik2λk2=ui12λ1+ui22λ2++uip2λpuik2λk

因此
∑ k = 1 p l i k 2 = 1 ,    i = 1 , 2 , ⋯   , p \sum_{k=1}^p l_{ik}^2=1,\space\space i=1,2,\cdots,p k=1plik2=1,  i=1,2,,p
如果   v a r ( x i ) = 1   \space var(x_i)=1\space  var(xi)=1 对所有的   i   \space i \space  i 都成立,那么
∑ i = 1 p l i k 2 = ∑ i = 1 p u i k 2 λ k 2 λ k = λ k ∑ i = 1 p u i k 2 = λ k ,    k = 1 , 2 , ⋯   , p \sum_{i=1}^pl_{ik}^2=\sum_{i=1}^p\frac{u_{ik}^2\lambda_k^2}{\lambda_k}=\lambda_k\sum_{i=1}^pu_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p i=1plik2=i=1pλkuik2λk2=λki=1puik2=λk,  k=1,2,,p

8.4 PCA与SVD的关系

现在我们来探索奇异值分解与主成分分析之间的联系

假设原始数据由   n × p   \space n\times p\space  n×p 矩阵   X = [ x 1 ∣ x 2 ∣ ⋯ ∣ x p ]   \space X=[x_1|x_2|\cdots|x_p]\space  X=[x1x2xp] 表示, x i x_i xi表示列向量。

假设我们从原始数据中提取   p   \space p \space  p 个无相关性的主成分   F = [ f 1 ∣ f 2 ∣ ⋯ ∣ f p ] \space F=[f_1|f_2|\cdots|f_p]  F=[f1f2fp],则   F = X U   \space F=XU\space  F=XU ,其中   U   \space U \space  U 是正交矩阵。那么
c o v ( F , F ) = 1 n − 1 F T F = Λ cov(F,F)=\frac{1}{n-1}F^TF=\Lambda cov(F,F)=n11FTF=Λ
其中   Λ   \space\Lambda\space  Λ 是对角元素为   λ i = v a r ( f i )   \space\lambda_i=var(f_i)\space  λi=var(fi) 的对角矩阵。

现在假设   λ 1 ≥ λ 2 ≥ ⋯ ≥ λ r > 0 \space\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_r\gt0  λ1λ2λr>0   λ r + 1 = λ r + 2 = ⋯ = λ p = 0 \space \lambda_{r+1}=\lambda_{r+2}=\cdots=\lambda_{p}=0  λr+1=λr+2==λp=0,那么
Λ − 1 / 2 = [ 1 λ 1 ⋱ 1 λ r 0 ⋱ 0 ] \Lambda^{-1/2}= \begin{bmatrix} \frac{1}{\sqrt{\lambda_1}} & & & & & \\ & \ddots & & & & \\ & & \frac{1}{\sqrt{\lambda_r}} & & & \\ & & & 0 & & \\ & & & & \ddots & \\ & & & & & 0 \end{bmatrix} Λ1/2=λ1 1λr 100
因此,我们有
1 n − 1 Λ − 1 / 2 F T F Λ − 1 / 2 = [ I r 0 0 0 ] \frac{1}{n-1}\Lambda^{-1/2}F^TF\Lambda^{-1/2}= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix} n11Λ1/2FTFΛ1/2=[Ir000]
  F s = 1 n − 1 F Λ − 1 / 2 \space F_s= \frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}  Fs=n1 1FΛ1/2,则
  ( F s ) T F s = [ I r 0 0 0 ] \space (F_s)^TF_s= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}  (Fs)TFs=[Ir000]
换句话说, F s F_s Fs的前   r   \space r \space  r 列是正交的。

因为   F s = 1 n − 1 F Λ − 1 / 2 = 1 n − 1 X U Λ − 1 / 2 \space F_s=\frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}=\frac{1}{n-1}XU\Lambda^{-1/2}  Fs=n1 1FΛ1/2=n11XUΛ1/2,我们推导出
1 n − 1 X = F s Λ 1 / 2 U T \frac{1}{\sqrt{n-1}}X=F_s\Lambda^{1/2}U^T n1 1X=FsΛ1/2UT
这是对   1 n − 1 X   \space\frac{1}{\sqrt{n-1}}X\space  n1 1X 的奇异值分解。

为了得出全部的奇异值分解公式,我们只需要用一些新的单位向量来代替   p − r   \space p-r\space  pr 个零向量,从而生成正交矩阵 F o F_o Fo,那么
1 n − 1 X = F o Λ 1 / 2 U t \frac{1}{\sqrt{n-1}}X=F_o\Lambda^{1/2}U^t n1 1X=FoΛ1/2Ut
这是 1 n − 1 \frac{1}{\sqrt{n-1}} n1 1全部的奇异值分解。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值