一、主成分分析基本思想
主成分分析的基本思想是:在尽可能多地保留原始变量信息的前提下达到降维目的,从而抓住主要矛盾,以简化问题的复杂性。
为了合并原始信息,主成分分析将多个原始变量进行线性变换,形成少数几个新的综合变量。设对某一事物的研究涉及
p
p
p个指标,每个指标用列向量表达为
X
1
,
X
2
,
.
.
.
,
X
p
X_{1},X_{2},...,X_{p}
X1,X2,...,Xp,将指标合并后构成
p
p
p维随机变量
X
=
(
X
1
,
X
2
,
.
.
.
,
X
p
)
T
X=(X_{1},X_{2},...,X_{p})^T
X=(X1,X2,...,Xp)T,变换系数矩阵
U
=
(
U
1
,
U
2
,
.
.
.
,
U
p
)
T
U=(U_{1},U_{2},...,U_{p})^T
U=(U1,U2,...,Up)T,其中第
i
i
i次变换系数
U
i
=
(
u
i
1
,
u
i
2
,
.
.
.
,
u
i
p
)
T
U_{i}=(u_{i1},u_{i2},...,u_{ip})^T
Ui=(ui1,ui2,...,uip)T,变换后
Y
=
U
X
Y=UX
Y=UX,即
{
Y
1
=
U
1
T
X
=
u
11
X
1
+
u
12
X
2
+
.
.
.
+
u
1
p
X
p
Y
2
=
U
2
T
X
=
u
21
X
1
+
u
22
X
2
+
.
.
.
+
u
2
p
X
p
.
.
.
.
.
.
Y
p
=
U
p
T
X
=
u
p
1
X
1
+
u
p
2
X
2
+
.
.
.
+
u
p
p
X
p
\begin{cases} Y_{1}=U_{1}^TX=u_{11}X_{1}+u_{12}X_{2}+...+u_{1p}X_{p} \\[2ex] Y_{2}=U_{2}^TX=u_{21}X_{1}+u_{22}X_{2}+...+u_{2p}X_{p} \\[2ex] ......\\[2ex] Y_{p}=U_{p}^TX=u_{p1}X_{1}+u_{p2}X_{2}+...+u_{pp}X_{p} \\[2ex] \end{cases}
⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧Y1=U1TX=u11X1+u12X2+...+u1pXpY2=U2TX=u21X1+u22X2+...+u2pXp......Yp=UpTX=up1X1+up2X2+...+uppXp
主成分分析要求线性变换后,
p
p
p个主成分
Y
1
,
Y
2
,
.
.
.
,
Y
p
Y_{1},Y_{2},...,Y_{p}
Y1,Y2,...,Yp的总方差与原始变量
X
1
,
X
2
,
.
.
.
,
X
p
X_{1},X_{2},...,X_{p}
X1,X2,...,Xp的总方差相等。
由于不同的线性变换得到的综合变量
Y
Y
Y不尽相同,为了获得较好的效果,我们希望从线性变换后的综合变量中挑选的主成分能够尽可能多的包含原始信息,也就是按照原始信息离散性最大的方向投影。如图1所示,二维空间中变量
X
1
X_{1}
X1和
X
2
X_{2}
X2表现在坐标系上,信息在
Y
1
Y_{1}
Y1方向上离散度最大,且其垂直方向
Y
2
Y_{2}
Y2与
Y
1
Y_{1}
Y1重复的信息最少,这样就能获得包含原始信息最多的综合变量
Y
1
Y_{1}
Y1和
Y
2
Y_{2}
Y2。
二、主成分分析的求解
对于随机变量 X 1 , X 2 , . . . , X p X_{1},X_{2},...,X_{p} X1,X2,...,Xp而言,其协方差矩阵、相关矩阵是对各变量离散程度和变量之间相关程度的信息反映,在实际求解中,通常从两者入手,且一般而言,两者求得的主成分不同。
2.1 从协方差矩阵求解
(1)计算协方差矩阵
设变量
X
1
X_{1}
X1和
X
2
X_{2}
X2服从二元正态分布,则其协方差矩阵为
∑
=
[
σ
1
2
c
o
v
(
X
1
,
X
2
)
c
o
v
(
X
1
,
X
2
)
σ
2
2
]
\sum=\begin{bmatrix} \sigma _{1}^{2} & cov(X_{1},X_{2})\\ cov(X_{1},X_{2}) & \sigma _{2}^{2} \end{bmatrix}
∑=[σ12cov(X1,X2)cov(X1,X2)σ22]
也可以表示为
∑
=
[
σ
1
2
σ
1
σ
2
ρ
(
X
i
,
X
j
)
σ
1
σ
2
ρ
(
X
i
,
X
j
)
σ
2
2
]
\sum=\begin{bmatrix} \sigma _{1}^{2} & \sigma _{1} \sigma _{2} \rho_{(X_{i},X_{j})} \\ \sigma _{1} \sigma _{2} \rho_{(X_{i},X_{j})} & \sigma _{2}^{2} \end{bmatrix}
∑=[σ12σ1σ2ρ(Xi,Xj)σ1σ2ρ(Xi,Xj)σ22]
(2)求协方差矩阵的 特征根 和 特征向量
特征根和特征向量的求解方法为
令
∣
λ
E
−
∑
∣
=
0
\left | \lambda E-\sum \right |=0
∣λE−∑∣=0,对其求解后,得到特征根按大小排序
λ
1
>
λ
2
>
.
.
.
>
λ
p
\lambda _{1}>\lambda _{2}>...>\lambda _{p}
λ1>λ2>...>λp,对应的标准正交特征向量为
γ
1
,
γ
2
,
.
.
.
,
γ
p
\gamma _{1},\gamma _{2},...,\gamma _{p}
γ1,γ2,...,γp,其中
γ
i
=
(
u
i
1
,
u
i
2
,
.
.
.
,
u
i
p
)
T
\gamma _{i}=(u_{i1},u_{i2},...,u_{ip})^T
γi=(ui1,ui2,...,uip)T,正交向量矩阵
U
=
(
U
1
,
U
2
,
.
.
.
,
U
p
)
T
=
(
γ
1
,
γ
2
,
.
.
.
,
γ
p
)
T
=
[
u
11
u
12
.
.
.
u
1
p
u
21
u
22
.
.
.
u
2
p
.
.
.
.
.
.
.
.
.
.
.
.
u
p
1
u
p
2
.
.
.
u
p
p
]
U=(U_{1},U_{2},...,U_{p})^T=(\gamma _{1},\gamma _{2},...,\gamma _{p})^T=\begin{bmatrix} u_{11} & u _{12}& ...&u _{1p} \\ u _{21} & u_{22}& ...& u _{2p}\\ ...& ...& ...& ...\\ u _{p1}& u _{p2}& ...&u_{pp} \end{bmatrix}
U=(U1,U2,...,Up)T=(γ1,γ2,...,γp)T=⎣⎢⎢⎡u11u21...up1u12u22...up2............u1pu2p...upp⎦⎥⎥⎤
u
i
j
u_{ij}
uij代表第
i
i
i个主成分(第
i
i
i次线性变换)的第
j
j
j个原始变量的变换系数。第
i
i
i个主成分
Y
i
=
u
i
1
X
1
+
u
i
2
X
2
+
.
.
.
+
u
i
p
X
p
Y_{i}=u_{i1}X_{1}+u_{i2}X_{2}+...+u_{ip}X_{p}
Yi=ui1X1+ui2X2+...+uipXp
(3)确定主成分的个数
主成分个数的选取原则(基于SPSS):
① 单个主成分解释的变异(特征根)不因该小于1;
② 选取主成分累积的解释变异(方差贡献率)达到80%-90%。
计算方法(基于计算):
特征向量
λ
k
\lambda _{k}
λk的大小代表第
k
k
k个主成分
Y
k
Y_{k}
Yk的方差,最大特征值对应的特征向量是协方差矩阵变异最大的方向,
α
k
=
λ
k
λ
1
+
λ
2
+
.
.
.
+
λ
p
(
k
=
1
,
2...
,
p
)
\alpha _{k}=\frac{\lambda _{k}}{\lambda _{1}+\lambda _{2}+...+\lambda _{p}}(k=1,2...,p)
αk=λ1+λ2+...+λpλk(k=1,2...,p)为第
k
k
k个主成分
Y
k
Y_{k}
Yk的方差贡献率,
p
m
=
∑
i
=
1
m
λ
i
∑
i
=
1
p
λ
i
p_{m}=\frac{\sum_{i=1}^{m}\lambda _{i}}{\sum_{i=1}^{p}\lambda _{i}}
pm=∑i=1pλi∑i=1mλi
是主成分
Y
1
,
Y
2
,
.
.
.
,
Y
m
Y_{1},Y_{2},...,Y_{m}
Y1,Y2,...,Ym的累积贡献率。累积贡献率达到85%以上为宜,即主成分个数为
p
m
>
85
p_{m}>85%
pm>85时的
m
m
m值。
(4)映射后得到新的样本集
取前m个综合变量组成新的样本集
D
=
(
Y
1
,
Y
2
,
.
.
.
,
Y
m
)
=
{
Y
1
=
u
11
X
1
+
u
12
X
2
+
.
.
.
+
u
1
p
X
p
Y
2
=
u
21
X
1
+
u
22
X
2
+
.
.
.
+
u
2
p
X
p
.
.
.
.
.
.
Y
m
=
u
m
1
X
1
+
u
m
2
X
2
+
.
.
.
+
u
m
p
X
p
D=(Y_{1},Y_{2},...,Y_{m})=\begin{cases} Y_{1}=u_{11}X_{1}+u_{12}X_{2}+...+u_{1p}X_{p} \\[2ex] Y_{2}=u_{21}X_{1}+u_{22}X_{2}+...+u_{2p}X_{p} \\[2ex] ......\\[2ex] Y_{m}=u_{m1}X_{1}+u_{m2}X_{2}+...+u_{mp}X_{p} \\[2ex] \end{cases}
D=(Y1,Y2,...,Ym)=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧Y1=u11X1+u12X2+...+u1pXpY2=u21X1+u22X2+...+u2pXp......Ym=um1X1+um2X2+...+umpXp
新的样本集中,综合变量之间互不相关。
2.2 从相关矩阵求解
相关矩阵求解方法是将原始变量标准化后的协方差矩阵,相当于消除量纲后的协方差矩阵,而协方差矩阵求解方法则是没有消除量纲的协方差矩阵。
可直接由相关系数公式计算,相关系数:
ρ
(
X
i
,
X
j
)
=
c
o
v
(
X
i
,
X
j
)
σ
i
2
σ
j
2
\rho_{(X_{i},X_{j})}=\frac{cov(X_{i},X_{j})}{\sqrt{\sigma _{i}^{2}\sigma _{j}^{2}}}
ρ(Xi,Xj)=σi2σj2cov(Xi,Xj)
得相关系数矩阵为:
R
=
[
1
ρ
12
.
.
.
ρ
1
p
ρ
12
1
.
.
.
ρ
2
p
.
.
.
.
.
.
.
.
.
.
.
.
ρ
1
p
ρ
2
p
.
.
.
1
]
R=\begin{bmatrix} 1 & \rho _{12}& ...&\rho _{1p} \\ \rho _{12} & 1& ...& \rho _{2p}\\ ...& ...& ...& ...\\ \rho _{1p}& \rho _{2p}& ...&1 \end{bmatrix}
R=⎣⎢⎢⎡1ρ12...ρ1pρ121...ρ2p............ρ1pρ2p...1⎦⎥⎥⎤
也可以先将原始变量标准化后去协方差,
X
1
,
X
2
,
.
.
.
,
X
p
X_{1},X_{2},...,X_{p}
X1,X2,...,Xp标准化后
Z
i
=
X
i
−
μ
i
σ
i
2
,
i
=
1
,
2
Z_{i}=\frac{X_{i}-\mu _{i}}{\sqrt{\sigma _{i}^2}}, i=1,2
Zi=σi2Xi−μi,i=1,2
标准化后矩阵用
Z
Z
Z表示,则相关系数矩阵为
c
o
v
(
Z
)
=
R
=
[
1
ρ
12
.
.
.
ρ
1
p
ρ
12
1
.
.
.
ρ
2
p
.
.
.
.
.
.
.
.
.
.
.
.
ρ
1
p
ρ
2
p
.
.
.
1
]
cov(Z)=R=\begin{bmatrix} 1 & \rho _{12}& ...&\rho _{1p} \\ \rho _{12} & 1& ...& \rho _{2p}\\ ...& ...& ...& ...\\ \rho _{1p}& \rho _{2p}& ...&1 \end{bmatrix}
cov(Z)=R=⎣⎢⎢⎡1ρ12...ρ1pρ121...ρ2p............ρ1pρ2p...1⎦⎥⎥⎤
相关矩阵实际上就是对原始变量标准化后的协方差矩阵,所以计算特征值和特征向量的过程与2.1一致,主成分个数的确定准则也一样,故不再赘述。
三、两种求解主成分方法的选择
原始变量无量纲,且值域范围相同,则无需标准化,因此使用协方差矩阵求解;
研究单个指标的方差对结果的影响,若使用标准化处理,将无法体现方差影响,因此使用协方差矩阵求解;
其他情况则需要标准化,因此使用相关矩阵求解。
参考书:《多元统计分析》何晓群