课堂翻译
主成分分析
8.2 基本思想和数学模型
8.2.1 基本思想
主成分通过使用少量的综合性的变量来表示原始数据绝大部分的变化,因此,提出了一种协方差结构的简单描述。
综合变量是原始变量的线性组合,也被叫做主成分。
几何解释
通过旋转原始数据得到一个新的坐标系,使得新的坐标能够表示最大变量的方向
8.2.2 数学模型
原始变量: X = [ x 1 , x 2 , ⋯ , x p ] X=[x_1,x_2,\cdots,x_p] X=[x1,x2,⋯,xp],每一个 x i x_i xi是一个随机变量,我们假设 E ( x i ) = 0 E(x_i)=0 E(xi)=0。
第一个主成分: f 1 = a 11 x 1 + a 12 x 2 + ⋯ + a 1 p x p f_1=a_{11}x_1+a_{12}x_2+\cdots+a_{1p}x_p f1=a11x1+a12x2+⋯+a1pxp,
其中 a 1 = [ a 11 , a 12 , ⋯ , a 1 p ] ′ a_1=[a_{11},a_{12},\cdots,a_{1p}]' a1=[a11,a12,⋯,a1p]′是下列问题的解:
m
a
x
v
a
r
(
f
1
)
=
a
1
′
∑
a
1
,
s
.
t
.
∣
∣
a
1
∣
∣
2
=
1
max\space var(f_1)=a_1'\sum a_1 ,\qquad s.t.\quad||a_1||^2=1
max var(f1)=a1′∑a1,s.t.∣∣a1∣∣2=1
第二主成分:
f
2
=
a
21
x
1
+
a
22
x
2
+
⋯
+
a
2
p
x
p
f_2=a_{21}x_1+a_{22}x_2+\cdots+a_{2p}x_p
f2=a21x1+a22x2+⋯+a2pxp,除了对
a
1
a_1
a1施加的约束外,我们还需要令
f
1
f_1
f1和
f
2
f_2
f2不相关。
c
o
v
(
f
1
,
f
2
)
=
c
o
v
(
∑
j
=
1
p
a
1
j
x
j
,
∑
k
=
1
p
a
2
k
x
k
)
)
=
a
1
′
∑
a
2
=
0
cov(f_1,f_2)=cov\left(\sum_{j=1}^p a_{1j}x_j,\sum_{k=1}^p a_{2k}x_k)\right)=a_1'\sum a_2=0
cov(f1,f2)=cov(j=1∑pa1jxj,k=1∑pa2kxk))=a1′∑a2=0
因此,
a
2
=
[
a
21
,
a
22
,
⋯
,
a
2
p
]
′
a_2=[a_{21},a_{22},\cdots,a_{2p}]'
a2=[a21,a22,⋯,a2p]′是下列问题的答案:
m
a
x
v
a
r
(
f
2
)
=
a
2
′
∑
a
2
max \space var(f_2)=a_2'\sum a_2
max var(f2)=a2′∑a2
s . t . ∣ ∣ a 2 ∣ ∣ = 1 , c o v ( f 1 , f 2 ) = a 1 ′ ∑ a 2 = 0 s.t.\quad ||a_2||=1,\space cov(f_1,f_2)=a_1'\sum a_2=0 s.t.∣∣a2∣∣=1, cov(f1,f2)=a1′∑a2=0
第 i i i个主成分: f i = a i 1 x 1 + a i 2 x 2 + ⋯ + a i p x p f_i=a_{i1}x_1+a_{i2}x_2+\cdots +a_{ip}x_p fi=ai1x1+ai2x2+⋯+aipxp,
其中
a
i
=
[
a
i
1
,
a
i
2
,
⋯
,
a
i
p
]
′
a_i=[a_{i1},a_{i2},\cdots ,a_{ip}]'
ai=[ai1,ai2,⋯,aip]′是以下问题的解:
m
a
x
v
a
r
(
f
i
)
=
a
i
′
∑
a
i
s
.
t
.
∣
∣
a
i
∣
∣
2
=
1
,
c
o
v
(
f
1
,
f
i
)
=
a
1
′
∑
a
i
=
0
,
c
o
v
(
f
2
,
f
i
)
=
a
2
′
∑
a
i
=
0
,
⋮
c
o
v
(
f
i
−
1
,
f
i
)
=
a
i
−
1
′
∑
a
i
=
0
max\space var(f_i)=a_i'\sum a_i\\ \begin{aligned} s.t.\quad&\space||a_i||_2=1,\\ &cov(f_1,f_i)=a_1'\sum a_i=0,\\ &cov(f_2,f_i)=a_2'\sum a_i=0,\\ &\vdots \\ &cov(f_{i-1},f_i)=a_{i-1}'\sum a_i=0 \end{aligned}
max var(fi)=ai′∑ais.t. ∣∣ai∣∣2=1,cov(f1,fi)=a1′∑ai=0,cov(f2,fi)=a2′∑ai=0,⋮cov(fi−1,fi)=ai−1′∑ai=0
第一主成分的解
现在我们来考虑最大值问题
m
a
x
v
a
r
(
f
1
)
=
a
1
′
∑
a
1
s
.
t
.
∣
∣
a
1
∣
∣
2
=
1
max\space var(f_1)=a_1'\sum a_1\qquad s.t.\space||a_1||^2=1
max var(f1)=a1′∑a1s.t. ∣∣a1∣∣2=1
注意
∑
\sum
∑是一个对称的非负定矩阵,则存在一个正交矩阵
U
=
[
u
1
∣
u
2
∣
⋯
∣
u
p
]
U=[u_1|u_2|\cdots|u_p]
U=[u1∣u2∣⋯∣up]使得
U
T
∑
U
=
Λ
=
[
λ
1
λ
2
⋱
λ
p
]
(
8
−
1
)
U^T\sum U=\Lambda= \begin{bmatrix} {\lambda_1}&{}&{}&{}\\ {}&{\lambda_2}&{}&{}\\ {}&{}&{\ddots}&{}\\ {}&{}&{}&{\lambda_p} \end{bmatrix} (8-1)
UT∑U=Λ=⎣⎢⎢⎡λ1λ2⋱λp⎦⎥⎥⎤(8−1)
其中
λ
1
≥
λ
2
≥
⋯
≥
λ
p
≥
0
\lambda_1\geq\lambda_2\geq\cdots\ \geq\lambda_p\geq0
λ1≥λ2≥⋯ ≥λp≥0是协方差矩阵
∑
\sum
∑的特征值。
从公式8-1中我们得出
∑
=
U
Λ
U
T
=
∑
i
=
1
p
λ
i
u
i
u
i
T
\sum=U\Lambda U^T=\sum_{i=1}^p\lambda_iu_iu_i^T
∑=UΛUT=i=1∑pλiuiuiT
v a r ( f 1 ) = a 1 T ∑ a 1 = a 1 T ( ∑ i = 1 P λ i u i u i T ) a 1 = ∑ i = 1 p λ i a 1 T u i u i T a 1 = ∑ i = 1 p λ i ⟨ a 1 , u i ⟩ 2 ≤ λ 1 ∑ i = 1 p ⟨ a 1 , u i ⟩ 2 = λ 1 a 1 T ( ∑ i = 1 p u i u i T ) a 1 = λ 1 a 1 T a 1 = λ 1 \begin{aligned} var(f_1) &=a_1^T\sum a_1 =a_1^T\left(\sum_{i=1}^P\lambda_iu_iu_i^T\right)a_1 =\sum_{i=1}^p\lambda_ia_1^Tu_iu_i^Ta_1\\ &=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2\\ &\leq\lambda_1\sum_{i=1}^p\langle a_1,u_i\rangle^2 =\lambda_1a_1^T\left(\sum_{i=1}^pu_iu_i^T\right)a_1 =\lambda_1a_1^Ta_1=\lambda_1 \end{aligned} var(f1)=a1T∑a1=a1T(i=1∑PλiuiuiT)a1=i=1∑pλia1TuiuiTa1=i=1∑pλi⟨a1,ui⟩2≤λ1i=1∑p⟨a1,ui⟩2=λ1a1T(i=1∑puiuiT)a1=λ1a1Ta1=λ1
因此 λ 1 \lambda_1 λ1是 v a r ( f 1 ) var(f_1) var(f1)的一个上界。
另一方面,这个上界是可解的。实际上,如果我们令
a
1
=
u
1
a_1=u_1
a1=u1,则有
v
a
r
(
f
1
)
=
∑
i
=
1
p
λ
i
⟨
a
1
,
u
i
⟩
2
=
∑
i
=
1
p
λ
i
⟨
u
1
,
u
i
⟩
2
=
λ
1
var(f_1)=\sum_{i=1}^p\lambda_i\langle a_1,u_i\rangle^2=\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle^2=\lambda_1
var(f1)=i=1∑pλi⟨a1,ui⟩2=i=1∑pλi⟨u1,ui⟩2=λ1
以上,我们证明了以下结论:
结论1:
第一主成分是 f 1 = u 11 x 1 + u 12 x 2 + ⋯ + u 1 p x p f_1=u_{11}x_1+u_{12}x_2+\cdots+u_{1p}x_p f1=u11x1+u12x2+⋯+u1pxp
而 u 1 = [ u 11 , u 12 , ⋯ , u 1 p ] T u_1=[u_{11},u_{12},\cdots,u_{1p}]^T u1=[u11,u12,⋯,u1p]T是 ∑ \sum ∑关于最大特征值 λ 1 \lambda_1 λ1的单位特征向量,此外 v a r ( f 1 ) = λ 1 var(f_1)=\lambda_1 var(f1)=λ1。
第二主成分求解
先考虑最大化问题:
m
a
x
v
a
r
(
f
2
)
=
a
2
T
∑
a
2
s
.
t
.
∣
∣
a
2
∣
∣
2
=
1
,
c
o
v
(
f
1
,
f
2
)
=
u
1
T
∑
a
2
=
0
max\space var(f_2)=a_2^T\sum a_2\\ s.t.\quad ||a_2||^2=1,\space cov(f_1,f_2)=u_1^T\sum a_2=0
max var(f2)=a2T∑a2s.t.∣∣a2∣∣2=1, cov(f1,f2)=u1T∑a2=0
c o v ( f 1 , f 2 ) = u 1 T ∑ a 2 = u 1 T ( ∑ i = 1 p λ i u i u i T ) a 2 = ∑ i = 1 p λ i u 1 T u i u i T a 2 = ∑ i = 1 p λ i ⟨ u 1 , u i ⟩ ⟨ u i , a 2 ⟩ = λ 1 ⟨ u 1 , a 2 ⟩ \begin{aligned} cov(f_1,f_2) &=u_1^T\sum a_2=u_1^T\left(\sum_{i=1}^p\lambda_iu_iu_i^T\right)a_2\\ &=\sum_{i=1}^p\lambda_iu_1^Tu_iu_i^Ta_2 =\sum_{i=1}^p\lambda_i\langle u_1,u_i\rangle\langle u_i,a_2\rangle=\lambda_1\langle u_1,a_2\rangle \end{aligned} cov(f1,f2)=u1T∑a2=u1T(i=1∑pλiuiuiT)a2=i=1∑pλiu1TuiuiTa2=i=1∑pλi⟨u1,ui⟩⟨ui,a2⟩=λ1⟨u1,a2⟩
因此 c o v ( f 1 , f 2 ) = 0 cov(f_1,f_2)=0 cov(f1,f2)=0可以推出 ⟨ u 1 , a 2 ⟩ = 0 \langle u_1,a_2\rangle=0 ⟨u1,a2⟩=0。
与第一主成分的求解过程相同,可得
v
a
r
(
f
2
)
=
∑
i
=
1
p
λ
i
⟨
a
2
,
u
i
⟩
2
=
∑
i
=
2
p
λ
i
⟨
a
2
,
u
i
⟩
2
≤
λ
2
∑
i
=
2
p
⟨
a
2
,
u
i
⟩
2
=
λ
2
∑
i
=
1
p
⟨
a
2
,
u
i
⟩
2
=
λ
2
var(f_2)=\sum_{i=1}^p\lambda_i\langle a_2,u_i\rangle^2=\sum_{i=2}^p\lambda_i\langle a_2,u_i\rangle^2\\ \leq\lambda_2\sum_{i=2}^p\langle a_2,u_i\rangle^2=\lambda_2\sum_{i=1}^p\langle a_2,u_i\rangle^2=\lambda_2
var(f2)=i=1∑pλi⟨a2,ui⟩2=i=2∑pλi⟨a2,ui⟩2≤λ2i=2∑p⟨a2,ui⟩2=λ2i=1∑p⟨a2,ui⟩2=λ2
因此
λ
2
\lambda_2
λ2是
v
a
r
(
f
2
)
var(f_2)
var(f2)的一个上界,并且这个上界是可解的,实际上,我们令
a
2
=
u
2
a_2=u_2
a2=u2,那么
v
a
r
(
f
2
)
=
∑
i
=
1
p
λ
i
⟨
u
2
,
u
i
⟩
2
=
λ
2
var(f_2)=\sum_{i=1}^p\lambda_i\langle u_2,u_i\rangle^2=\lambda_2
var(f2)=i=1∑pλi⟨u2,ui⟩2=λ2
至此,我们证明了下述结论:
结论2
第二主成分是 f 2 = u 21 x 1 + u 22 x 2 + ⋯ + u 2 p x p f_2=u_{21}x_1+u_{22}x_2+\cdots+u_{2p}x_p f2=u21x1+u22x2+⋯+u2pxp,而 u 2 = [ u 21 , u 22 , ⋯ , u 2 p ] T u_2=[u_{21},u_{22},\cdots,u_{2p}]^T u2=[u21,u22,⋯,u2p]T是 ∑ \sum ∑关于第二大特征值 λ 2 \lambda_2 λ2的单位特征向量,此外 v a r ( f 2 ) = λ 2 var(f_2)=\lambda_2 var(f2)=λ2。
第三主成分、第四主成分,等等,这些都可以类似的推导出来。
一般结论:
定理8.1
设 ∑ \sum ∑为原始变量 X = [ x 1 , x 2 , ⋯ , x p ] X=[x_1,x_2,\cdots,x_p] X=[x1,x2,⋯,xp]的协方差矩阵, λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda_1\geq\lambda_2\geq\cdots\geq\lambda_p\geq0 λ1≥λ2≥⋯≥λp≥0是 ∑ \sum ∑的特征值, u 1 , u 2 , ⋯ , u p u_1,u_2,\cdots,u_p u1,u2,⋯,up是各特征值对应的单位特征向量。则第i个主成分由 f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p \quad f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p\quad fi=ui1x1+ui2x2+⋯+uipxp给出。
f i f_i fi的方差 v a r ( f i ) = λ i var(f_i)=\lambda_i var(fi)=λi。如果一些特征值 λ i \lambda_i λi相等,那么对应的主成分 f i f_i fi并不唯一。
8.3 一些重要结论
定理8.2
主成分 F = [ f 1 , f 2 , ⋯ , f p ] F=[f_1,f_2,\cdots,f_p] F=[f1,f2,⋯,fp]不相关,即 c o v ( F , F ) cov(F,F) cov(F,F)是对角矩阵。
证明:从定理8.1可知
f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p , i = 1 , 2 , ⋯ , p f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p fi=ui1x1+ui2x2+⋯+uipxp, i=1,2,⋯,p
u
i
=
[
u
i
1
,
u
i
2
,
⋯
,
u
i
p
]
T
u_i=[u_{i1},u_{i2},\cdots,u_{ip}]^T
ui=[ui1,ui2,⋯,uip]T是协方差阵
∑
\sum
∑对应于特征值
λ
i
\lambda_i
λi的特征向量。
c
o
v
(
f
i
,
f
j
)
=
c
o
v
(
∑
k
=
1
p
u
i
k
x
k
,
∑
l
=
1
p
u
j
l
x
l
)
=
∑
k
=
1
p
∑
l
=
1
p
u
i
k
u
j
l
c
o
v
(
x
k
,
x
l
)
=
u
i
∑
u
j
=
λ
j
u
i
T
u
j
=
λ
j
δ
i
,
j
\begin{aligned} cov(f_i,f_j) &=cov\left( \sum_{k=1}^pu_{ik}x_k,\sum_{l=1}^pu_{jl}x_l \right) \\ &=\sum_{k=1}^p\sum_{l=1}^pu_{ik}u_{jl}cov(x_k,x_l)\\ &=u_i\sum u_j=\lambda_ju_i^Tu_j=\lambda_j\delta_{i,j} \end{aligned}
cov(fi,fj)=cov(k=1∑puikxk,l=1∑pujlxl)=k=1∑pl=1∑puikujlcov(xk,xl)=ui∑uj=λjuiTuj=λjδi,j
定理8.3
设 ∑ \space\sum\space ∑ 为原始变量 X = [ x 1 , x 2 , ⋯ , x p ] \space X=[x_1,x_2,\cdots,x_p]\space\space X=[x1,x2,⋯,xp] 的协方差矩阵, λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p ≥ 0 \lambda_1\ge\lambda_2\ge\cdots\ge\lambda_p\ge0\space λ1≥λ2≥⋯≥λp≥0 是 ∑ \space\sum\space ∑ 的特征值,并且 f i = u i 1 x 1 + u i 2 x 2 + ⋯ + u i p x p , i = 1 , 2 , ⋯ , p \space f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p,\space i=1,2,\cdots,p\space fi=ui1x1+ui2x2+⋯+uipxp, i=1,2,⋯,p 是主成分。
有
∑
i
=
1
p
v
a
r
(
f
i
)
=
∑
i
=
1
p
λ
i
=
∑
i
=
1
p
σ
i
i
=
∑
i
=
1
p
v
a
r
(
x
i
)
\sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^pvar(x_i)
i=1∑pvar(fi)=i=1∑pλi=i=1∑pσii=i=1∑pvar(xi)
其中
σ
i
i
\space\sigma_{ii}\space
σii 是协方差矩阵
∑
\space\sum\space
∑ 的对角线元素。
方差不变法则
证明:从定理8.1 我们得知
v
a
r
(
f
i
)
=
λ
i
var(f_i)=\lambda_i
var(fi)=λi,则
∑
i
=
1
p
v
a
r
(
f
i
)
=
∑
i
=
1
p
λ
i
=
t
r
a
c
e
(
Λ
)
(
8
−
2
)
\sum_{i=1}^pvar(f_i)=\sum_{i=1}^p\lambda_i=trace(\Lambda)\qquad\qquad(8-2)
i=1∑pvar(fi)=i=1∑pλi=trace(Λ)(8−2)
由公式8-1,有
U
T
∑
U
=
Λ
\space U^T\sum U=\Lambda\space
UT∑U=Λ ,其中
U
\space U\space
U 是正交矩阵,因此,我们根据
t
r
a
c
e
(
A
B
)
=
t
r
a
c
e
(
B
A
)
trace(AB)=trace(BA)
trace(AB)=trace(BA)和
U
U
T
=
I
\space UU^T=I\space
UUT=I 推导出
t
r
a
c
e
(
Λ
)
=
t
r
a
c
e
(
U
T
∑
U
)
=
t
r
a
c
e
(
U
U
T
∑
)
=
t
r
a
c
e
(
∑
)
(
8
−
3
)
trace(\Lambda)=trace(U^T\sum U)=trace(UU_T\sum)=trace(\sum)\qquad\qquad(8-3)
trace(Λ)=trace(UT∑U)=trace(UUT∑)=trace(∑)(8−3)
由公式(8-2)和(8-3),命题得证。
练习:证明 t r a c e ( B A ) = t r a c e ( A B ) trace(BA)=trace(AB) trace(BA)=trace(AB)
定理8.4
定理8.3表明总体方差为
σ
T
=
∑
i
=
1
p
σ
i
i
=
∑
i
=
1
p
λ
i
\sigma_T=\sum_{i=1}^p\sigma_{ii}=\sum_{i=1}^p\lambda_i
σT=i=1∑pσii=i=1∑pλi
因此,第
k
\space k \space
k 个主成分的方差解释率为:
λ
k
σ
T
=
λ
k
λ
1
+
λ
1
+
⋯
+
λ
p
\frac{\lambda_k}{\sigma_T}=\frac{\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p}
σTλk=λ1+λ1+⋯+λpλk
则前
k
\space k \space
k 个主成分的方差解释率为:
λ
1
+
λ
1
+
⋯
+
λ
k
λ
1
+
λ
1
+
⋯
+
λ
p
\frac{\lambda_1+\lambda_1+\cdots+\lambda_k}{\lambda_1+\lambda_1+\cdots+\lambda_p}
λ1+λ1+⋯+λpλ1+λ1+⋯+λk
我们称前者为方差贡献率,后者为总体贡献率。
在许多真实案例中,有大量的原始变量,但是前一个、两个或三个成分就可以解释大部分(例如:80%~90%)的总体方差,因此,在避免损失大量信息的前提下,我们可以使用这些成分来代替原始的 p \space p \space p 个变量。
定理8.5
设
∑
\space\sum\space
∑ 是原始变量
X
=
[
x
1
,
x
2
,
⋯
,
x
p
]
\space X=[x_1,x_2,\cdots,x_p]\space
X=[x1,x2,⋯,xp] 的协方差矩阵,并且
f
i
=
u
i
1
x
1
+
u
i
2
x
2
+
⋯
+
u
i
p
x
p
f_i=u_{i1}x_1+u_{i2}x_2+\cdots+u_{ip}x_p
fi=ui1x1+ui2x2+⋯+uipxp
是主成分,则
ρ
f
i
,
x
k
=
u
i
k
λ
i
σ
k
k
\rho_{f_i,x_k}=\frac{u_{ik}\sqrt{\lambda_i}}{\sqrt{\sigma_{kk}}}
ρfi,xk=σkkuikλi
其中
ρ
f
i
,
x
k
\space \rho_{f_i,x_k} \space
ρfi,xk 是
f
i
\space f_i \space
fi 和
x
k
\space x_k \space
xk 的相关系数。
证明
设 c k = [ c o v ( x 1 , f k ) , c o v ( x 2 , f k ) , ⋯ , c o v ( x p , f k ) ] T \space c_k=[cov(x_1,f_k),cov(x_2,f_k),\cdots,cov(x_p,f_k)]^T \space ck=[cov(x1,fk),cov(x2,fk),⋯,cov(xp,fk)]T ,则有 c k = ∑ T u k = ∑ u k = λ k u k \space c_k=\sum^Tu_k=\sum u_k=\lambda_ku_k\space ck=∑Tuk=∑uk=λkuk
因此有
ρ
(
x
i
,
f
k
)
=
c
o
v
(
x
i
,
f
k
)
v
a
r
(
f
k
)
⋅
v
a
r
(
x
i
)
=
λ
k
u
i
k
λ
k
σ
i
i
=
u
i
k
λ
k
σ
i
i
\begin{aligned} \rho(x_i,f_k) =\frac{cov(x_i,f_k)}{\sqrt{var(f_k)}\cdot\sqrt{var(x_i)}} \\ =\frac{\lambda_ku_{ik}}{\sqrt{\lambda_k}\sqrt{\sigma_{ii}}} =\frac{u_{ik}\sqrt{\lambda_k}}{\sqrt{\sigma_{ii}}} \end{aligned}
ρ(xi,fk)=var(fk)⋅var(xi)cov(xi,fk)=λkσiiλkuik=σiiuikλk
定义8.1
我们称 ρ ( x i , f k ) \space\rho(x_i,f_k)\space ρ(xi,fk) 为因子载荷,并且称矩阵 L = [ l i k ] i , k = 1 , 2 , ⋯ , p \space L=[l_{ik}]_{i,k=1,2,\cdots,p} \space L=[lik]i,k=1,2,⋯,p 为因子载荷矩阵。
从定理8.4,我们可以推导出
L
=
D
−
1
/
2
U
Λ
1
/
2
,
D
=
[
σ
11
σ
22
⋱
σ
p
p
]
,
Λ
=
[
λ
1
λ
2
⋱
λ
p
]
L=D^{-1/2}U\Lambda^{1/2},\space D= \left[ \begin{matrix} \sigma_{11}&&& \\ & \sigma_{22}&& \\ && \ddots & \\ &&& \sigma_{pp} \end{matrix} \right],\space \Lambda= \left[ \begin{matrix} \lambda_{1}&&& \\ & \lambda_{2}&& \\ && \ddots & \\ &&& \lambda_{p} \end{matrix} \right]
L=D−1/2UΛ1/2, D=⎣⎢⎢⎡σ11σ22⋱σpp⎦⎥⎥⎤, Λ=⎣⎢⎢⎡λ1λ2⋱λp⎦⎥⎥⎤
如果原始变量的方差都等于1,那么
D
=
I
\space D=I \space
D=I ,因此有
L
=
U
Λ
1
/
2
\space L=U\Lambda^{1/2}
L=UΛ1/2
定理8.6
载荷因子
I
j
k
\space I_{jk}\space
Ijk 满足下列等式:
∑
k
=
1
p
l
i
k
2
=
1
,
i
=
1
,
2
,
⋯
,
p
\sum_{k=1}^pl_{ik}^2=1,\space\space i=1,2,\cdots,p
k=1∑plik2=1, i=1,2,⋯,p
而且,如果
v
a
r
(
x
i
)
=
1
\space var(x_i)=1\space
var(xi)=1 对于所有的原始变量
x
i
\space x_i\space
xi 都成立,那么
∑
i
=
1
p
l
i
k
2
=
λ
k
,
k
=
1
,
2
,
⋯
,
p
\sum_{i=1}^pl_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p
i=1∑plik2=λk, k=1,2,⋯,p
证明
设
X
=
[
x
1
,
x
2
,
⋯
,
x
p
]
\space X=[x_1,x_2,\cdots,x_p]\space
X=[x1,x2,⋯,xp] 是原始变量的行向量,并且
F
=
[
f
1
,
f
2
,
⋯
,
f
p
]
\space F=[f_1,f_2,\cdots,f_p]\space
F=[f1,f2,⋯,fp] 是行向量的主成分。则有
F
=
X
U
F=XU
F=XU
其中
U
\space U \space
U 是正交矩阵,正交矩阵的第
k
\space k \space
k 列是协方差矩阵
∑
\space\sum\space
∑ 关于特征值
u
k
\space u_k\space
uk 的特征向量
u
k
\space u_k\space
uk ,因此
X
=
F
U
T
X=FU^T
X=FUT。
x
i
=
u
i
1
f
1
+
u
i
2
f
2
+
⋯
+
u
i
p
f
p
,
i
=
1
,
2
,
⋯
,
p
x_i=u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p,\space\space i=1,2,\cdots,p
xi=ui1f1+ui2f2+⋯+uipfp, i=1,2,⋯,p
v a r ( x i ) = v a r ( u i 1 f 1 + u i 2 f 2 + ⋯ + u i p f p ) = u i 1 2 v a r ( f 1 ) + ⋯ + u i p 2 v a r ( f p ) = u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p \begin{aligned} var(x_i) &=var(u_{i1}f_1+u_{i2}f_2+\cdots+u_{ip}f_p) \\ &=u_{i1}^2var(f_1)+\cdots+u_{ip}^2var(f_p) \\ &=u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p \end{aligned} var(xi)=var(ui1f1+ui2f2+⋯+uipfp)=ui12var(f1)+⋯+uip2var(fp)=ui12λ1+ui22λ2+⋯+uip2λp
l i k 2 = ρ ( x i , f k ) 2 = c o v ( x i , f k ) 2 v a r ( x i ) v a r ( f k ) = u i k 2 λ k 2 ( u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p ) λ k = u i k 2 λ k u i 1 2 λ 1 + u i 2 2 λ 2 + ⋯ + u i p 2 λ p \begin{aligned} l_{ik}^2 =\rho(x_i,f_k)^2 &=\frac{cov(x_i,f_k)^2}{var(x_i)var(f_k)} \\ &=\frac{u_{ik}^2\lambda_k^2}{(u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p)\lambda_k} \\ &=\frac{u_{ik}^2\lambda_k}{u_{i1}^2\lambda_1+u_{i2}^2\lambda_2+\cdots+u_{ip}^2\lambda_p} \end{aligned} lik2=ρ(xi,fk)2=var(xi)var(fk)cov(xi,fk)2=(ui12λ1+ui22λ2+⋯+uip2λp)λkuik2λk2=ui12λ1+ui22λ2+⋯+uip2λpuik2λk
因此
∑
k
=
1
p
l
i
k
2
=
1
,
i
=
1
,
2
,
⋯
,
p
\sum_{k=1}^p l_{ik}^2=1,\space\space i=1,2,\cdots,p
k=1∑plik2=1, i=1,2,⋯,p
如果
v
a
r
(
x
i
)
=
1
\space var(x_i)=1\space
var(xi)=1 对所有的
i
\space i \space
i 都成立,那么
∑
i
=
1
p
l
i
k
2
=
∑
i
=
1
p
u
i
k
2
λ
k
2
λ
k
=
λ
k
∑
i
=
1
p
u
i
k
2
=
λ
k
,
k
=
1
,
2
,
⋯
,
p
\sum_{i=1}^pl_{ik}^2=\sum_{i=1}^p\frac{u_{ik}^2\lambda_k^2}{\lambda_k}=\lambda_k\sum_{i=1}^pu_{ik}^2=\lambda_k,\space\space k=1,2,\cdots,p
i=1∑plik2=i=1∑pλkuik2λk2=λki=1∑puik2=λk, k=1,2,⋯,p
8.4 PCA与SVD的关系
现在我们来探索奇异值分解与主成分分析之间的联系
假设原始数据由 n × p \space n\times p\space n×p 矩阵 X = [ x 1 ∣ x 2 ∣ ⋯ ∣ x p ] \space X=[x_1|x_2|\cdots|x_p]\space X=[x1∣x2∣⋯∣xp] 表示, x i x_i xi表示列向量。
假设我们从原始数据中提取
p
\space p \space
p 个无相关性的主成分
F
=
[
f
1
∣
f
2
∣
⋯
∣
f
p
]
\space F=[f_1|f_2|\cdots|f_p]
F=[f1∣f2∣⋯∣fp],则
F
=
X
U
\space F=XU\space
F=XU ,其中
U
\space U \space
U 是正交矩阵。那么
c
o
v
(
F
,
F
)
=
1
n
−
1
F
T
F
=
Λ
cov(F,F)=\frac{1}{n-1}F^TF=\Lambda
cov(F,F)=n−11FTF=Λ
其中
Λ
\space\Lambda\space
Λ 是对角元素为
λ
i
=
v
a
r
(
f
i
)
\space\lambda_i=var(f_i)\space
λi=var(fi) 的对角矩阵。
现在假设
λ
1
≥
λ
2
≥
⋯
≥
λ
r
>
0
\space\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_r\gt0
λ1≥λ2≥⋯≥λr>0,
λ
r
+
1
=
λ
r
+
2
=
⋯
=
λ
p
=
0
\space \lambda_{r+1}=\lambda_{r+2}=\cdots=\lambda_{p}=0
λr+1=λr+2=⋯=λp=0,那么
Λ
−
1
/
2
=
[
1
λ
1
⋱
1
λ
r
0
⋱
0
]
\Lambda^{-1/2}= \begin{bmatrix} \frac{1}{\sqrt{\lambda_1}} & & & & & \\ & \ddots & & & & \\ & & \frac{1}{\sqrt{\lambda_r}} & & & \\ & & & 0 & & \\ & & & & \ddots & \\ & & & & & 0 \end{bmatrix}
Λ−1/2=⎣⎢⎢⎢⎢⎢⎢⎡λ11⋱λr10⋱0⎦⎥⎥⎥⎥⎥⎥⎤
因此,我们有
1
n
−
1
Λ
−
1
/
2
F
T
F
Λ
−
1
/
2
=
[
I
r
0
0
0
]
\frac{1}{n-1}\Lambda^{-1/2}F^TF\Lambda^{-1/2}= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}
n−11Λ−1/2FTFΛ−1/2=[Ir000]
令
F
s
=
1
n
−
1
F
Λ
−
1
/
2
\space F_s= \frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}
Fs=n−11FΛ−1/2,则
(
F
s
)
T
F
s
=
[
I
r
0
0
0
]
\space (F_s)^TF_s= \begin{bmatrix} I_r & 0 \\ 0 & 0 \end{bmatrix}
(Fs)TFs=[Ir000]
换句话说,
F
s
F_s
Fs的前
r
\space r \space
r 列是正交的。
因为
F
s
=
1
n
−
1
F
Λ
−
1
/
2
=
1
n
−
1
X
U
Λ
−
1
/
2
\space F_s=\frac{1}{\sqrt{n-1}}F\Lambda^{-1/2}=\frac{1}{n-1}XU\Lambda^{-1/2}
Fs=n−11FΛ−1/2=n−11XUΛ−1/2,我们推导出
1
n
−
1
X
=
F
s
Λ
1
/
2
U
T
\frac{1}{\sqrt{n-1}}X=F_s\Lambda^{1/2}U^T
n−11X=FsΛ1/2UT
这是对
1
n
−
1
X
\space\frac{1}{\sqrt{n-1}}X\space
n−11X 的奇异值分解。
为了得出全部的奇异值分解公式,我们只需要用一些新的单位向量来代替
p
−
r
\space p-r\space
p−r 个零向量,从而生成正交矩阵
F
o
F_o
Fo,那么
1
n
−
1
X
=
F
o
Λ
1
/
2
U
t
\frac{1}{\sqrt{n-1}}X=F_o\Lambda^{1/2}U^t
n−11X=FoΛ1/2Ut
这是
1
n
−
1
\frac{1}{\sqrt{n-1}}
n−11全部的奇异值分解。