本文就对多元统计中的复相关系数和偏相关系数进行阐述和说明。
1.复相关系数(Multi-correlation coefficient)
指度量 y \ y y 与其最优线性预测 y ~ \widetilde y y 之间的相关系数。 也即有一个随机变量 y \ y y 和一组随机变量 x = ( x 1 , x 2 , … , x p ) ′ \ x=(x_1,x_2,\dots,x_p)' x=(x1,x2,…,xp)′ , 现在寻找 y \ y y 和该组 x \ x x 变量之间的整体相关性。
在一般情况下, y \ y y和 x \ x x组成员 x i \ x_i xi 都具有一定的相关性。比如在人体素质测试中,若有 肺活量 为 y \ y y,以及年龄( x 1 \ x_1 x1)、体重( x 2 \ x_2 x2)、800米跑步时间( x 3 \ x_3 x3)、休息时的脉搏( x 4 \ x_4 x4)和跑步时的脉搏( x 5 \ x_5 x5)六个测试项目。肺活量与其余5个变量中的每一个都具有相关性。而我们想要研究肺活量与其余五个变量之间的整体相关性。
为做到这点,首先找到一个线性组合 l ′ x \ l'x l′x 将 x \ x x 中包含的关于 y \ y y 的信息最大限度地提取出来,然后计算 y \ y y 与 线性组合 l ′ x \ l'x l′x 之间的相关性,此即为复相关系数,表示为 ρ y ⋅ x \rho_{y·x} ρy⋅x / ρ y ⋅ 1 , 2 , 3 , … , p \rho_{y·1,2,3,\dots,p} ρy⋅1,2,3,…,p / ρ ( y , l ′ x ) \rho(y,l'x) ρ(y,l′x)。
根据相关系数定义,我们有
ρ
2
(
y
,
l
′
x
)
=
C
o
v
(
y
,
l
′
x
)
V
(
y
)
∗
V
(
l
′
x
)
=
(
σ
y
x
l
′
)
2
σ
y
y
∗
l
′
Σ
x
x
l
.
\rho^{2}(y,l'x)=\frac{Cov(y,l'x)}{V(y)*V(l'x)}=\frac {(\sigma_{yx}l')^2}{\sigma_{yy}*l'\Sigma_{xx}l}.
ρ2(y,l′x)=V(y)∗V(l′x)Cov(y,l′x)=σyy∗l′Σxxl(σyxl′)2.
通过柯西—施瓦茨不等式
设有一 B > 0 \ B>0 B>0,则有 ( x ′ y ) 2 ⩽ ( x ′ B x ) ( y ′ B − 1 y ) . \ (x'y)^2\leqslant (x'Bx)(y'B^{-1}y). (x′y)2⩽(x′Bx)(y′B−1y).等号成立当且仅当 x = c B − 1 y \ x=cB^{-1}y x=cB−1y或 y = c B x \ y=cBx y=cBx, c \ c c为常数。
设
B
=
Σ
x
x
−
1
\ B=\Sigma_{xx}^{-1}
B=Σxx−1,得到复相关系数的平方为
ρ
2
(
y
,
l
′
x
)
⩽
(
σ
x
y
′
Σ
x
x
−
1
σ
x
y
)
(
l
′
Σ
x
x
l
)
σ
y
y
∗
(
l
′
Σ
x
x
l
)
=
σ
x
y
′
Σ
x
x
−
1
σ
x
y
σ
y
y
.
\rho^{2}(y,l'x)\leqslant\frac{(\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy})(l'\Sigma_{xx}l)}{\sigma_{yy}*(l'\Sigma_{xx}l)}=\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}.
ρ2(y,l′x)⩽σyy∗(l′Σxxl)(σxy′Σxx−1σxy)(l′Σxxl)=σyyσxy′Σxx−1σxy.
当
B
=
Σ
x
x
−
1
,
l
=
Σ
x
x
−
1
σ
x
y
\ B=\Sigma_{xx}^{-1},l=\Sigma_{xx}^{-1}\sigma_{xy}
B=Σxx−1,l=Σxx−1σxy时等式成立。
因此,复相关系数计算公式为
ρ
y
⋅
x
=
m
a
x
ρ
(
y
,
l
′
x
)
=
σ
x
y
′
Σ
x
x
−
1
σ
x
y
σ
y
y
.
\rho_{y\cdot x}=max \rho(y,l'x)=\sqrt{\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}}.
ρy⋅x=maxρ(y,l′x)=σyyσxy′Σxx−1σxy.
其中,
σ
x
y
\sigma_{xy}
σxy为
x
和
y
\ x和y
x和y的协方差矩阵,
Σ
x
x
\Sigma_{xx}
Σxx为
x
\ x
x组的自协方差矩阵。
σ
x
y
′
Σ
x
x
−
1
x
\sigma_{xy}'\Sigma_{xx}^{-1}x
σxy′Σxx−1x为
y
\ y
y的最优线性预测
y
~
\widetilde y
y
。以上公式也可化为
ρ
x
y
′
R
x
x
−
1
ρ
x
y
\sqrt{\rho_{xy}'R_{xx}^{-1}\rho_{xy}}
ρxy′Rxx−1ρxy利用相关系数
ρ
x
y
\rho_{xy}
ρxy和相关矩阵
R
x
x
\ R_{xx}
Rxx求解。
2.偏相关系数(Partial-correlation coefficient)
指剔除其他变量的线性影响后,变量 x i 与 x j \ x_i 与 x_j xi与xj之间的相关系数。要真正度量两个随机变量之间的相关性,必须要剔除由第三方带来的影响。
例如:①男生和女生两家相好。他两之间的亲密度可看做是相关系数。两人要想真正走在一起,必须要剔除双方父母带来的影响,测量两个人之间不受其他干扰时剩下的亲密度。这就是偏相关系数。②一个家庭的饮食支出和衣着支出存在较强的正相关性,也就是说一般吃的费用大的一般穿的费用也大,即相关系数大。但实际上,这种“伪强正相关”是由于收入这个第三方变量引起的。一般而言,高收入带动了各方面的消费支出。如果控制收入不变,则饮食和衣着费用之间的相关性则大不相同,甚至变成负相关性。消除第三方变量的影响后两者的相关性,称作偏相关。
相关系数也称为总相关系数或零阶偏相关系数,包含了一切影响带来的相关性。设有多元随机变量
x
\ x
x,对
x
\ x
x 及其均值向量
μ
\mu
μ 、总体自协方差矩阵
Σ
\Sigma
Σ 做剖分如下:
x
=
(
x
1
x
2
)
k
p
−
k
,
μ
=
(
μ
1
μ
2
)
k
p
−
k
,
Σ
=
(
Σ
11
Σ
12
Σ
21
Σ
22
)
k
p
−
k
.
\ x=\binom{x_1}{x_2}\begin{matrix}k\\p-k\end{matrix},\mu=\binom{\mu_1}{\mu_2}\begin{matrix}k\\p-k\end{matrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}\begin{matrix}k\\p-k\end{matrix}.
x=(x2x1)kp−k,μ=(μ2μ1)kp−k,Σ=(Σ11Σ21Σ12Σ22)kp−k.
以下讨论消除
x
2
\ x_2
x2的线性影响后
x
1
\ x_1
x1分量之间的相关性,先记为
Σ
11
⋅
2
\Sigma_{11\cdot2}
Σ11⋅2。
我们讨论的方法是
- 首先找到 x 2 \ x_2 x2对 x 1 \ x_1 x1各分量 x i \ x_i xi的最优线性预测 x ~ i \widetilde x_i x i,将 x 2 \ x_2 x2中包含的 x i \ x_i xi的信息尽可能提取出来;
- 计算预测误差 e i = x i − x ~ i \ e_i=x_i - \widetilde x_i ei=xi−x i,表示 x 2 \ x_2 x2无法解释的部分;
- 度量 e i \ e_i ei之间的相关性,计算 V ( e ) \ V(e) V(e);
- 利用相关系数公式,代入 V ( e ) \ V(e) V(e)成分计算偏相关。
由最优线性预测公式
y ~ = μ y + σ x y ′ Σ x x − 1 ( x − μ x ) \widetilde y=\mu_y+\sigma_{xy}'\Sigma_{xx}^{-1}(x-\mu_x) y =μy+σxy′Σxx−1(x−μx)
可知
e
~
i
=
x
i
−
[
μ
i
+
a
i
′
Σ
12
Σ
22
−
1
(
x
2
−
μ
2
)
]
.
\widetilde e_i=x_i-[\mu_i+a_i'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)].
e
i=xi−[μi+ai′Σ12Σ22−1(x2−μ2)].
其中
a
i
=
(
0
,
…
,
0
,
1
,
0
,
…
,
0
)
′
:
k
×
1
\ a_i=(0,\dots,0,1,0,\dots,0)':k×1
ai=(0,…,0,1,0,…,0)′:k×1,1出现在第
i
\ i
i个位置。导出
e
=
x
1
−
[
μ
1
+
(
a
1
,
…
,
a
k
)
′
Σ
12
Σ
22
−
1
(
x
2
−
μ
2
)
]
\ e=x_1-[\mu_1+(a_1,\dots,a_k)'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]
e=x1−[μ1+(a1,…,ak)′Σ12Σ22−1(x2−μ2)]
=
x
1
−
[
μ
1
+
Σ
12
Σ
22
−
1
(
x
2
−
μ
2
)
]
.
\ =x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)].
=x1−[μ1+Σ12Σ22−1(x2−μ2)].
计算
x
i
\ x_i
xi各分量间的相关性,则有
V
(
e
)
=
V
(
x
1
−
[
μ
1
+
Σ
12
Σ
22
−
1
(
x
2
−
μ
2
)
]
)
\ V(e)=V(x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)])
V(e)=V(x1−[μ1+Σ12Σ22−1(x2−μ2)])
=
V
(
x
1
−
Σ
12
Σ
22
−
1
x
2
)
=
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
=
Σ
11
⋅
2
.
\ =V(x_1-\Sigma_{12}\Sigma_{22}^{-1}x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\Sigma_{11\cdot2}.
=V(x1−Σ12Σ22−1x2)=Σ11−Σ12Σ22−1Σ21=Σ11⋅2.
于是,我们称 Σ 11 ⋅ 2 = ( σ i j , k = 1 , … , p ) \Sigma_{11\cdot2}=(\sigma_{ij,k=1,\dots,p}) Σ11⋅2=(σij,k=1,…,p)为偏协方差矩阵,非对角元素称为偏协方差,对角元素称为偏方差。根据相关系数的公式推导出 x 2 \ x_2 x2给定时, x i \ x_i xi和 x j \ x_j xj的 ( p − k ) \ (p-k) (p−k)阶偏相关系数的计算公式为 ρ i j ⋅ k + 1 , … , p = σ i j ⋅ k + 1 , … , p σ i i ⋅ k + 1 , … , p ∗ σ j j ⋅ k + 1 , … , p , 1 ⩽ i , j ⩽ k . \rho_{ij\cdot k+1,\dots,p}=\frac{\sigma_{ij\cdot k+1,\dots,p}}{\sqrt {\sigma_{ii\cdot k+1,\dots,p}*\sigma_{jj\cdot k+1,\dots,p}}},1\leqslant i,j\leqslant k. ρij⋅k+1,…,p=σii⋅k+1,…,p∗σjj⋅k+1,…,pσij⋅k+1,…,p,1⩽i,j⩽k.