08 主成分分析(进阶版)

08 主成分分析(进阶版)

标签:机器学习与数据挖掘

1.主成分定义

  设随机向量 X T = [ X 1 , X 2 , . . . , X P ] \mathbf{X}^{\text{T}}=\left[ X_1,X_2,...,X_P \right] XT=[X1,X2,...,XP] 有协方差矩阵乏,其特征值$\lambda _1\geqslant \lambda _2\geqslant …\geqslant \lambda _p\geqslant 0 $。
  考虑线性组合:
Y 1 = a 1 ′ X = a 11 X 1 + a 12 X 2 + . . . + a 1 p X p Y 2 = a 2 ′ X = a 21 X 1 + a 22 X 2 + . . . + a 2 p X p . . . Y p = a p ′ X = a p 1 X 1 + a p 2 X 2 + . . . + a p p X p Y_1=\boldsymbol{a}_1'\boldsymbol{X}=a_{11}X_1+a_{12}X_2+...+a_{1p}X_p \\ Y_2=\boldsymbol{a}_2'\boldsymbol{X}=a_{21}X_1+a_{22}X_2+...+a_{2p}X_p \\ ... \\ Y_p=\boldsymbol{a}_p'\boldsymbol{X}=a_{p1}X_1+a_{p2}X_2+...+a_{pp}X_p Y1=a1X=a11X1+a12X2+...+a1pXpY2=a2X=a21X1+a22X2+...+a2pXp...Yp=apX=ap1X1+ap2X2+...+appXp
则,我们可以得到:
V a r ( Y i ) = a i ′ Σ a i    i = 1,2,..., p C o v ( Y i , Y k ) = a i ′ Σ a k    i , k = 1,2,..., p Var\left( Y_i \right) =\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{\varSigma a}_{\boldsymbol{i}}\,\, i=\text{1,2,...,}p \\ Cov\left( Y_i,Y_k \right) =\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{\varSigma a}_{\boldsymbol{k}}\,\, i,k=\text{1,2,...,}p Var(Yi)=aiΣaii=1,2,...,pCov(Yi,Yk)=aiΣaki,k=1,2,...,p
上式的那些 Y 1 Y_1 Y1 Y 2 Y_2 Y2,…, Y p Y_p Yp,它们使得方差尽可能的大
第一主成分是最大方差的显著性组合,即使得$Var\left( Y_i \right) 最 大 化 。 显 然 , 最大化。显然, Var\left( Y_i \right) 会 因 为 会因为 \boldsymbol{a_1}$乘以某一个常数而增大。为消除这种不确定性,一个方便的方法是值关注有单位长度的系数向量。我们因此定义:
第一主成分 = = = 线性组合 a 1 ′ X \boldsymbol{a}_{\boldsymbol{1}}'\boldsymbol{X} a1X,在 a 1 ′ a 1 = 1 \boldsymbol{a}_{\boldsymbol{1}}'\boldsymbol{a}_{\boldsymbol{1}}=1 a1a1=1时,它使 V a r ( a 1 ′ X ) = 0 Var\left( \boldsymbol{a}_1'\boldsymbol{X} \right) =0 Var(a1X)=0最大。

第二主成分 = = = 线性组合 a 2 ′ X \boldsymbol{a}_{\boldsymbol{2}}'\boldsymbol{X} a2X,在 a 2 ′ a 2 = 1 \boldsymbol{a}_{\boldsymbol{2}}'\boldsymbol{a}_{\boldsymbol{2}}=1 a2a2=1 C o v ( a i ′ X , a k ′ X ) = 0 Cov\left( \boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{X,a}_{\boldsymbol{k}}'\boldsymbol{X} \right) =0 Cov(aiX,akX)=0时,它使 V a r ( a 2 ′ X ) Var\left( \boldsymbol{a}_2'\boldsymbol{X} \right) Var(a2X)最大。

i i i主成分 = = =线性组合 a i ′ X \boldsymbol{a}_{\boldsymbol{i}}&#x27;\boldsymbol{X} aiX,和 a i ′ a i = 1 \boldsymbol{a}_{\boldsymbol{i}}&#x27;\boldsymbol{a}_{\boldsymbol{i}}=1 aiai=1 C o v ( a i ′ X , a k ′ X ) = 0 ( k &lt; i ) Cov\left( \boldsymbol{a}_{\boldsymbol{i}}&#x27;\boldsymbol{X,a}_{\boldsymbol{k}}&#x27;\boldsymbol{X} \right) =0 (k &lt; i) Cov(aiX,akX)=0(k<i)时,它使 V a r ( a i ′ X ) Var\left( \boldsymbol{a}_i&#x27;\boldsymbol{X} \right) Var(aiX)最大。

2.重要结论:

image_1d950dpiq1hfm1hveu97dhg1k329.png-84.1kB

image_1d950ef8k74pf4b3cotvoo2dm.png-53.1kB
用语言来描述结论8.2:
总体总方差 = σ 11 + σ 22 + . . . + σ p p = λ 1 + λ 2 + . . . + λ p \text{总体总方差}=\sigma _{11}+\sigma _{22}+...+\sigma _{\begin{array}{c} pp\\ \end{array}} \\ =\lambda _1+\lambda _2+...+\lambda _p 总体总方差=σ11+σ22+...+σpp=λ1+λ2+...+λp

image_1d950f19j1u2ha4kav817q7b8313.png-53.8kB
推导:
ρ Y i , X i = C o v ( Y i , X k ) V a r ( Y i ) V a r ( X k ) = λ i e i k λ i &ThinSpace;&ThinSpace; σ k k = e i k &ThinSpace;&ThinSpace; λ i σ k k \rho _{Y_i,X_i}=\frac{Cov\left( Y_i,X_k \right)}{\sqrt{Var\left( Y_i \right)}\sqrt{Var\left( X_k \right)}}=\frac{\lambda _ie_{ik}}{\sqrt{\lambda _i}\,\,\sqrt{\sigma _{kk}}}=\frac{e_{ik}\,\,\sqrt{\lambda _i}}{\sqrt{\sigma _{kk}}} ρYi,Xi=Var(Yi) Var(Xk) Cov(Yi,Xk)=λi σkk λieik=σkk eikλi
理解:这其实是按照相关系数的算法,算出的东西叫做信息量。
image_1d950kncm2v3l71fjnu31fm09.png-46.8kB

6.解释

  首先,我们知道对一个矩阵的谱分解意味着对这个所在的n维图形找出它的特征。若是2维的一个椭圆,即是找出它的长短轴,而实际上,主成分同样。考虑一个二元正态随机向量:
image_1d96e4km519vvd41elfm0jfc69.png-136.7kB
  我们可以看到,对于此图形,我们对其做主成分分析(也是谱分解)实际的操作就是找出其长短轴,也就是它的特征,并以此为基础进行变换。对于p维而已,减少其轴的数量也就是减少其维度。
  当然,我们现在针对一下这个2维数据,可以发现其长轴方向就是其方差最大化的地方。

7.代码实现

R的话,参考本博客 R语言 里面 第四站的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值