二、多元正态分布
1.多元正态分布的定义
由大数定律,自然界中许多随机现象都服从正态分布,因此在统计中正态分布是最重要的一类分布,在多元统计中也是如此,现在我们先对多元正态分布作出定义。值得注意的是,有很多种定义方式都可以定义出一个多元正态分布,我们将从不同角度进行定义。
第一种定义从标准正态分布随机向量的线性变换入手。
多元正态分布定义一:设 U = ( U 1 , ⋯ , U q ) ′ U=(U_1,\cdots,U_q)' U=(U1,⋯,Uq)′是随机向量且 U 1 , ⋯ , U q U_1,\cdots,U_q U1,⋯,Uq相互独立,服从标准正态分布即 N ( 0 , 1 ) N(0,1) N(0,1)分布。对 p p p维常数向量 μ \mu μ和 p × q p\times q p×q常数矩阵 A A A,记
X = A U + μ , X=AU+\mu, X=AU+μ,
则称 X X X的分布为 p p p元正态分布,称 X X X为 p p p维正态随机向量,记作 X ∼ N p ( μ . A A ′ ) X\sim N_p(\mu.AA') X∼Np(μ.AA′)。
在第一种定义中,多元正态分布被表示为一些相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布。显然 E ( U ) = 0 , D ( U ) = I p {\rm E}(U)=0,{\rm D}(U)=I_p E(U)=0,D(U)=Ip,所以 E ( X ) = μ , D ( X ) = A A ′ {\rm E}(X)=\mu,{\rm D}(X)=AA' E(X)=μ,D(X)=AA′,也就是说多元正态分布 N p ( μ , A A ′ ) N_p(\mu,AA') Np(μ,AA′)中两个参数分别是随机向量的均值向量与自协方差矩阵。
在一元统计中,随机变量的分布能与其特征函数唯一相互确定。在多元统计也是这样,且多元统计中的特征函数,是一组数到一个数的映射,即
X
X
X的特征函数为
Φ
X
(
t
)
=
E
e
i
t
′
X
\Phi_X(t)={\rm E}e^{{\rm i}t'X}
ΦX(t)=Eeit′X。因此,我们如果能求出
X
X
X的特征函数形式,就可以从特征函数的角度定义多元正态分布,现在我们求如定义一定义的的
X
X
X的特征函数,如下。
Φ
X
(
t
)
=
E
(
e
i
t
′
X
)
=
E
(
e
i
t
′
(
A
U
+
μ
)
)
=
E
(
e
i
t
′
A
U
)
⋅
e
i
t
′
μ
=
e
i
t
′
μ
⋅
E
(
e
i
(
s
1
U
1
+
⋯
s
q
U
q
)
)
令
t
′
A
=
S
=
(
s
1
⋯
,
s
q
)
=
e
i
t
′
μ
E
e
i
s
1
U
1
⋯
E
e
i
s
1
U
q
=
e
i
t
′
μ
∏
i
=
1
q
e
−
1
2
s
i
2
=
e
i
t
′
μ
exp
{
−
1
2
∑
i
=
1
q
s
i
2
}
=
exp
{
i
t
′
μ
−
1
2
S
S
′
}
=
exp
{
i
t
′
μ
−
1
2
t
′
A
A
′
t
}
.
\begin{aligned} \Phi_X(t)=&{\rm E}(e^{{\rm i}t'X})={\rm E}\left(e^{{\rm i}t'(AU+\mu)} \right)\\ =&{\rm E}\left(e^{{\rm i}t'AU} \right)\cdot e^{{\rm i}t'\mu}\\ =&e^{{\rm i}t'\mu}\cdot {\rm E}\left(e^{{\rm i}(s_1U_1+\cdots s_qU_q)} \right) &令t'A=S=(s_1\cdots,s_q)\\ =&e^{{\rm i}t'\mu} {\rm E}e^{{\rm i}s_1U_1}\cdots{\rm E}e^{{\rm i}s_1U_q}\\ =&{\rm e}^{it'\mu}\prod_{i=1}^qe^{{-\frac 12s_i^2}}\\ =&{\rm e^{{\rm i}t'\mu}} \exp\left\{ -\frac 12\sum_{i=1}^q s_i^2 \right\}\\ =&\exp\left\{ {\rm i}t'\mu-\frac 12 SS' \right\}\\ =&\exp\left\{ {\rm i}t'\mu-\frac 12t'AA't \right\}. \end{aligned}
ΦX(t)========E(eit′X)=E(eit′(AU+μ))E(eit′AU)⋅eit′μeit′μ⋅E(ei(s1U1+⋯sqUq))eit′μEeis1U1⋯Eeis1Uqeit′μi=1∏qe−21si2eit′μexp{−21i=1∑qsi2}exp{it′μ−21SS′}exp{it′μ−21t′AA′t}.令t′A=S=(s1⋯,sq)
这里第三行到第四行是因为
U
1
,
⋯
,
U
q
U_1,\cdots,U_q
U1,⋯,Uq相互独立,第四行到第五行是因为标准正态分布的特征函数为
φ
(
s
)
=
exp
{
−
1
2
s
2
}
\varphi(s)=\exp\{-\frac12s^2\}
φ(s)=exp{−21s2},第六行到第七行运用了内积的性质。
因为标准正态分布的两个参数分别是均值向量和自协方差矩阵,对比在特征函数中的形式,我们可以从特征函数的角度定义 p p p元正态分布:
多元正态分布定义二:若 p p p维随机向量 X X X的特征函数为
Φ X ( t ) = exp [ i t ′ μ − 1 2 t ′ Σ t ] , Σ ≥ 0 , \Phi_X(t)=\exp\left[ {\rm i}t'\mu-\frac 12t'\Sigma t \right],\quad \Sigma\ge 0, ΦX(t)=exp[it′μ−21t′Σt],Σ≥0,
则称 X X X服从 p p p维正态分布,这里 μ , Σ \mu,\Sigma μ,Σ分别是均值向量和自协方差矩阵。
这说明,如果
X
X
X服从
p
p
p维正态分布,则
X
X
X的分布仅由两个参数决定——均值向量、自协方差矩阵。如果
X
∼
N
p
(
μ
,
Σ
)
X\sim N_p(\mu,\Sigma)
X∼Np(μ,Σ),则
Σ
=
A
A
′
\Sigma=AA'
Σ=AA′,由定义一,
X
=
d
A
U
+
μ
X\stackrel {\rm d}=AU+\mu
X=dAU+μ。如果对
X
X
X作线性变换,即用一个
s
×
p
s\times p
s×p常数矩阵
B
B
B和
s
s
s维常数向量
d
d
d进行处理:
Y
=
B
X
+
d
Y=BX+d
Y=BX+d,则
Y
=
B
X
+
d
=
d
B
(
A
U
+
μ
)
+
d
=
B
A
U
+
B
μ
+
d
,
Y=BX+d\stackrel {\rm d}= B(AU+\mu)+d=BAU+B\mu+d,
Y=BX+d=dB(AU+μ)+d=BAU+Bμ+d,
所以
Y
∼
N
s
(
B
μ
+
d
,
B
A
A
′
B
′
)
=
N
s
(
B
μ
+
d
,
B
Σ
B
′
)
Y\sim N_s(B\mu+d,BAA'B')=N_s(B\mu+d,B\Sigma B')
Y∼Ns(Bμ+d,BAA′B′)=Ns(Bμ+d,BΣB′),即对正态随机向量作线性变换得到的仍然是正态随机向量。特别取
B
=
(
I
r
,
O
)
B=(I_r,O)
B=(Ir,O)时,推出正态随机向量
X
X
X的边缘分布仍然是正态随机向量(变量)。
第三种定义由正态随机变量的线性变换定义,这里注重的是随机向量的内部结构。
多元正态分布定义三:若 p p p维随机向量 X X X的任意线性组合均服从一元正态分布,则称 X X X为 p p p维正态随机向量。
因为我们已经证明了,以前两种方式定义的多元随机向量 X X X的任意线性变换,得到的一维随机变量服从正态分布(只需取 B B B是 1 × p 1\times p 1×p向量, d = 0 d=0 d=0即可),所以要证明这个定义与前两种定义的等价性,需要证明,对任意随机向量 X X X和实向量 a a a, ξ = a ′ X \xi=a'X ξ=a′X是正态随机变量,能推出 X X X是由前两种方式定义的 p p p维正态随机向量。
既然
a
′
X
a'X
a′X是一元正态分布,则
E
(
X
)
=
μ
,
D
(
X
)
=
Σ
{\rm E}(X)=\mu,{\rm D}(X)=\Sigma
E(X)=μ,D(X)=Σ必然存在,这样
E
(
a
′
X
)
=
a
′
μ
{\rm E}(a'X)=a'\mu
E(a′X)=a′μ,
D
(
a
′
X
)
=
a
′
Σ
a
{\rm D}(a'X)=a'\Sigma a
D(a′X)=a′Σa,且
a
′
X
a'X
a′X的特征函数是
φ
(
t
)
=
E
e
i
t
(
a
′
X
)
=
exp
[
i
t
(
a
′
μ
)
−
1
2
t
2
(
a
′
Σ
a
)
]
\varphi(t)={\rm E}e^{{\rm i}t(a'X)}=\exp\left[ {\rm i}t(a'\mu)-\frac12t^2(a'\Sigma a) \right]
φ(t)=Eeit(a′X)=exp[it(a′μ)−21t2(a′Σa)]
所以
φ
(
1
)
=
E
e
i
a
′
X
=
exp
[
i
a
′
μ
−
1
2
a
′
Σ
a
]
,
∀
a
∈
R
p
,
\varphi(1)={\rm E}e^{{\rm i}a'X}=\exp\left[ {\rm i}a'\mu-\frac12a'\Sigma a \right],\quad \forall a\in\R^p,
φ(1)=Eeia′X=exp[ia′μ−21a′Σa],∀a∈Rp,
这就说明
X
X
X服从
p
p
p维正态分布(定义二)。
最后一种定义则由联合密度入手,计算由前三种定义导出的 X X X的联合密度,这样,服从此联合密度的随机向量就应该是 p p p维随机向量。
不妨设
X
=
d
A
U
+
μ
X\stackrel {\rm d}=AU+\mu
X=dAU+μ如定义一所示,则
U
→
X
U\to X
U→X的变换雅克比行列式为
J
(
u
→
x
)
=
1
J
(
x
→
u
)
=
(
a
b
s
∣
∂
x
′
∂
u
∣
)
−
1
=
(
a
b
s
∣
A
′
∣
)
1
/
2
=
∣
A
A
′
∣
−
1
/
2
=
∣
Σ
∣
1
/
2
.
J(u\to x)=\frac{1}{J(x\to u)}=\left({\rm abs}\left|\frac{\partial x'}{\partial u} \right|\right)^{-1}=\left({\rm abs}|A'|\right)^{1/2}=|AA'|^{-1/2}=|\Sigma|^{1/2}.
J(u→x)=J(x→u)1=(abs∣∣∣∣∂u∂x′∣∣∣∣)−1=(abs∣A′∣)1/2=∣AA′∣−1/2=∣Σ∣1/2.
此时要求
Σ
>
0
\Sigma>0
Σ>0。因为
U
U
U为标准独立正态随机变量构成的随机向量,所以
U
U
U的联合密度函数为:
f
(
u
)
=
1
(
2
π
)
p
/
2
exp
[
−
1
2
u
′
u
]
.
f(u)=\frac{1}{(2\pi)^{p/2}}\exp\left[-\frac 12 u'u \right].
f(u)=(2π)p/21exp[−21u′u].
这样就得到
f
(
x
)
=
f
(
u
)
J
(
u
→
x
)
=
1
(
2
π
)
p
/
2
exp
[
−
1
2
[
A
−
1
(
x
−
μ
)
]
′
[
A
−
1
(
x
−
μ
)
]
]
∣
Σ
∣
−
1
/
2
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
exp
[
−
1
2
(
x
−
μ
)
′
Σ
−
1
(
x
−
μ
)
]
.
\begin{aligned} f(x)=&f(u)J(u\to x)\\ =&\frac{1}{(2\pi)^{p/2}}\exp\left[-\frac12[A^{-1}(x-\mu)]'[A^{-1}(x-\mu)] \right]|\Sigma|^{-1/2}\\ =&\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x-\mu)'\Sigma^{-1}(x-\mu) \right]. \end{aligned}
f(x)===f(u)J(u→x)(2π)p/21exp[−21[A−1(x−μ)]′[A−1(x−μ)]]∣Σ∣−1/2(2π)p/2∣Σ∣1/21exp[−21(x−μ)′Σ−1(x−μ)].
多元正态分布定义四:如果 p p p维随机向量 X X X的联合密度函数为
f ( x ) = 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp [ − 1 2 ( x − μ ) ′ Σ − 1 ( x − μ ) ] . f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[-\frac12(x-\mu)'\Sigma^{-1}(x-\mu) \right]. f(x)=(2π)p/2∣Σ∣1/21exp[−21(x−μ)′Σ−1(x−μ)].
这里 μ \mu μ是 p p p维实向量, Σ \Sigma Σ是 p p p阶正定矩阵,则称 X X X服从 p p p维正态分布,即 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ)。
纵观多元正态分布的四种定义,分别从独立标准正态分布、特征函数、随机向量自身结构、联合密度函数入手,表示同一种分布类型。也就是说,正态随机向量只需要两个参数——均值向量、自协方差矩阵就能够得到很多信息。
2.多元正态分布分量独立性
要讨论正态随机向量的独立性,就要将正态向量的分量分为两个部分,我们不妨将两组分量集中放置,即将
p
p
p维随机向量分成
r
r
r维的一组
X
(
1
)
X^{(1)}
X(1)与
p
−
r
p-r
p−r维的一组
X
(
1
)
X^{(1)}
X(1),这样就是
X
=
[
X
(
1
)
X
(
2
)
]
,
μ
=
[
μ
(
1
)
μ
(
2
)
]
,
Σ
=
[
Σ
11
Σ
12
Σ
21
Σ
22
]
.
X=\begin{bmatrix} X^{(1)}\\ X^{(2)} \end{bmatrix}, \mu=\begin{bmatrix} \mu^{(1)}\\ \mu^{(2)} \end{bmatrix}, \Sigma=\begin{bmatrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22} \end{bmatrix}.
X=[X(1)X(2)],μ=[μ(1)μ(2)],Σ=[Σ11Σ21Σ12Σ22].
既然将分量分成了两组,我们可以研究这两组分量之间的关系。最直接的关系就是独立性,如果
X
X
X独立的,那么有
f
(
x
(
1
)
,
x
(
2
)
)
=
f
1
(
x
(
1
)
)
f
2
(
x
(
2
)
)
f(x^{(1)},x^{(2)})=f_1(x^{(1)})f_2(x^{(2)})
f(x(1),x(2))=f1(x(1))f2(x(2))。接下来的定理给出了独立性的条件:
正态随机向量的独立性: X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2)独立,等价于 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2)不相关,即
C O V ( X ( 1 ) , X ( 2 ) ) = O , C O V ( X ( 2 ) , X ( 1 ) ) = O . {\rm COV}(X^{(1)},X^{(2)})=O,\\ {\rm COV}(X^{(2)},X^{(1)})=O. COV(X(1),X(2))=O,COV(X(2),X(1))=O.
对于一般的随机向量,独立涵盖不相关,但不相关不意味着独立,而在正态约束下独立与不相关是等价的,因为
f
(
x
(
1
)
,
x
(
2
)
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
−
1
/
2
exp
{
−
1
2
(
x
−
μ
)
′
[
Σ
11
O
O
Σ
22
]
−
1
(
x
−
μ
)
}
=
1
(
2
π
)
r
/
2
∣
Σ
11
∣
−
1
/
2
exp
{
−
1
2
(
x
−
μ
)
′
Σ
11
−
1
(
x
−
μ
)
}
⋅
1
(
2
π
)
(
p
−
r
)
/
2
∣
Σ
22
∣
−
1
/
2
exp
{
−
1
2
(
x
−
μ
)
′
Σ
22
−
1
(
x
−
μ
)
}
=
f
1
(
x
(
1
)
)
⋅
f
2
(
x
(
2
)
)
.
\begin{aligned} f(x^{(1)},x^{(2)})=&\frac{1}{(2\pi)^{p/2}|\Sigma|^{-1/2}}\exp\left\{-\frac12(x-\mu)'\begin{bmatrix} \Sigma_{11}&O\\O&\Sigma_{22} \end{bmatrix}^{-1}(x-\mu) \right\}\\ =&\frac{1}{(2\pi)^{r/2}|\Sigma_{11}|^{-1/2}}\exp\left\{-\frac12(x-\mu)'\Sigma^{-1}_{11}(x-\mu) \right\}\cdot\\ &\frac{1}{(2\pi)^{(p-r)/2}|\Sigma_{22}|^{-1/2}}\exp\left\{-\frac12(x-\mu)'\Sigma_{22}^{-1}(x-\mu) \right\}\\ =&f_1(x^{(1)})\cdot f_2(x^{(2)}). \end{aligned}
f(x(1),x(2))===(2π)p/2∣Σ∣−1/21exp{−21(x−μ)′[Σ11OOΣ22]−1(x−μ)}(2π)r/2∣Σ11∣−1/21exp{−21(x−μ)′Σ11−1(x−μ)}⋅(2π)(p−r)/2∣Σ22∣−1/21exp{−21(x−μ)′Σ22−1(x−μ)}f1(x(1))⋅f2(x(2)).
也就是说,如果将
X
X
X进行分块,得到的分块自协方差阵只要是分块对角阵,则按照此分块方式,
X
X
X的分量各组合是不相关的,也就是相互独立的。特别当
Σ
\Sigma
Σ本身是对角阵的时候,
X
X
X的每一个分量之间都相互独立,结合
Σ
\Sigma
Σ是实对称矩阵可以正交对角化的特点,就可以用一个正交变换,将
X
X
X变成等量独立正态变量组成的随机向量
Y
Y
Y。
3.多元正态分布的条件分布
但是,当 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2)不独立时,求条件分布就比较繁琐。比较基础的问题是,给定 X ( 2 ) X^{(2)} X(2)时, X ( 1 ) X^{(1)} X(1)的条件分布还是不是一个 r r r元正态分布?如果是,它的均值、自协方差矩阵分别是多少?以下定理给出了解答。
正态分布的条件分布:设 X ∼ N p ( μ , Σ ) X\sim N_p(\mu,\Sigma) X∼Np(μ,Σ),被分组成为 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2),则给定 X ( 2 ) X^{(2)} X(2)时 X ( 1 ) X^{(1)} X(1)的条件分布是
( X ( 1 ) ∣ X ( 2 ) = x ( 2 ) ) ∼ N r ( μ 1 ⋅ 2 , Σ 11 ⋅ 2 ) , (X^{(1)}|X^{(2)}=x^{(2)})\sim N_r(\mu_{1\cdot2},\Sigma_{11\cdot2}), (X(1)∣X(2)=x(2))∼Nr(μ1⋅2,Σ11⋅2),
其中
μ 1 ⋅ 2 = μ ( 1 ) + Σ 12 Σ 22 − 1 ( x ( 2 ) − μ ( 2 ) ) , Σ 11 ⋅ 2 = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 . \mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}),\\ \Sigma_{11\cdot2 }=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}. μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2)),Σ11⋅2=Σ11−Σ12Σ22−1Σ21.
也就是说,多元正态分布的条件分布仍然是一个正态分布。
要证明这个定理,作一个非奇异线性变换:
Z
=
[
Z
(
1
)
Z
(
2
)
]
=
[
X
(
1
)
−
Σ
12
Σ
22
−
1
X
(
2
)
X
(
2
)
]
=
[
I
r
−
Σ
12
Σ
22
−
1
O
I
p
−
r
]
[
X
(
1
)
X
(
2
)
]
=
B
X
.
Z=\begin{bmatrix} Z^{(1)}\\Z^{(2)} \end{bmatrix}=\begin{bmatrix} X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\\ X^{(2)} \end{bmatrix}=\begin{bmatrix} I^r & -\Sigma_{12}\Sigma_{22}^{-1}\\ O & I_{p-r} \end{bmatrix}\begin{bmatrix} X^{(1)}\\X^{(2)} \end{bmatrix}=BX.
Z=[Z(1)Z(2)]=[X(1)−Σ12Σ22−1X(2)X(2)]=[IrO−Σ12Σ22−1Ip−r][X(1)X(2)]=BX.
做这个非奇异线性变化的意义,其实是在
X
(
1
)
X^{(1)}
X(1)中,扣掉在
X
(
2
)
X^{(2)}
X(2)方向上的那部分,也就相当于把
X
(
1
)
X^{(1)}
X(1)向与
X
(
2
)
X^{(2)}
X(2)正交的方向做一个映射,我们接下来将证明
Z
(
1
)
,
Z
(
2
)
Z^{(1)},Z^{(2)}
Z(1),Z(2)是相互独立的,也就是在这样的处理后,将
X
(
1
)
−
Σ
12
Σ
22
−
1
X
(
2
)
X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}
X(1)−Σ12Σ22−1X(2)与
X
(
2
)
X^{(2)}
X(2)变成相互正交的。所以这个
Σ
12
Σ
22
−
1
\Sigma_{12}\Sigma_{22}^{-1}
Σ12Σ22−1事实上是很重要的一个量,
X
(
1
)
X^{(1)}
X(1)在
X
(
2
)
X^{(2)}
X(2)方向上投影的大小,要想构造出来,就要找到一个
A
A
A使得
X
(
1
)
−
A
X
(
2
)
X^{(1)}-AX^{(2)}
X(1)−AX(2)与
X
(
2
)
X^{(2)}
X(2)相互独立,最后能够得到
A
=
Σ
12
Σ
22
−
1
A=\Sigma_{12}\Sigma_{22}^{-1}
A=Σ12Σ22−1。
现在我们要证明
Z
(
1
)
,
Z
(
2
)
Z^{(1)},Z^{(2)}
Z(1),Z(2)是相互独立的,由于在线性变换下
Z
Z
Z是一个多元正态分布,所以只需要计算其均值、方差即可确定其分布,那么
E
(
Z
)
=
B
E
(
X
)
=
[
μ
(
1
)
−
Σ
12
Σ
22
−
1
μ
(
2
)
μ
(
2
)
]
,
D
(
Z
)
=
B
D
(
X
)
B
′
=
[
I
r
−
Σ
12
Σ
22
−
1
O
I
p
−
r
]
[
Σ
11
Σ
12
Σ
21
Σ
22
]
[
I
r
O
(
−
Σ
12
Σ
22
−
1
)
′
I
p
−
r
]
=
[
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
O
Σ
21
Σ
22
]
[
I
r
O
−
Σ
22
−
1
Σ
21
I
p
−
r
]
=
[
Σ
11
−
Σ
12
−
1
Σ
22
Σ
21
O
O
Σ
22
]
.
\begin{aligned} &{\rm E}(Z)=B{\rm E}(X)=\begin{bmatrix} \mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \\ \mu^{(2)} \end{bmatrix},\\ &{\rm D}(Z)=B{\rm D}(X)B'\\ =& \begin{bmatrix} I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\ O & I_{p-r} \end{bmatrix} \begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \begin{bmatrix} I_r & O \\ (-\Sigma_{12}\Sigma_{22}^{-1})' & I_{p-r} \end{bmatrix}\\ =&\begin{bmatrix} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & O\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} \begin{bmatrix} I_r & O \\ -\Sigma_{22}^{-1}\Sigma_{21} & I_{p-r} \end{bmatrix}\\ =&\begin{bmatrix} \Sigma_{11}-\Sigma_{12}^{-1}\Sigma_{22}\Sigma_{21} & O \\ O & \Sigma_{22} \end{bmatrix}. \end{aligned}
===E(Z)=BE(X)=[μ(1)−Σ12Σ22−1μ(2)μ(2)],D(Z)=BD(X)B′[IrO−Σ12Σ22−1Ip−r][Σ11Σ21Σ12Σ22][Ir(−Σ12Σ22−1)′OIp−r][Σ11−Σ12Σ22−1Σ21Σ21OΣ22][Ir−Σ22−1Σ21OIp−r][Σ11−Σ12−1Σ22Σ21OOΣ22].
这就证明
Z
(
1
)
,
Z
(
2
)
Z^{(1)},Z^{(2)}
Z(1),Z(2)的不相关性,即独立,于是
Z
(
1
)
,
Z
(
2
)
Z^{(1)},Z^{(2)}
Z(1),Z(2)的联合密度函数很容易写出,且
Z
(
1
)
∼
N
r
(
μ
(
1
)
−
Σ
12
Σ
22
−
1
μ
(
2
)
,
Σ
11
−
Σ
12
Σ
22
−
1
Σ
21
)
=
N
r
(
μ
(
1
)
−
Σ
12
Σ
22
−
1
μ
(
2
)
,
Σ
11
⋅
2
)
Z^{(1)}\sim N_r(\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)},\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21})=N_r(\mu^{(1)}-\Sigma_{12} \Sigma_{22}^{-1}\mu^{(2)},\Sigma_{11\cdot 2})
Z(1)∼Nr(μ(1)−Σ12Σ22−1μ(2),Σ11−Σ12Σ22−1Σ21)=Nr(μ(1)−Σ12Σ22−1μ(2),Σ11⋅2)。又因为
J
(
z
→
x
)
=
∣
B
′
∣
=
1
J(z\to x)=|B'|=1
J(z→x)=∣B′∣=1,所以
f
(
x
(
1
)
,
x
(
2
)
)
=
g
(
z
(
1
)
,
z
(
2
)
)
⋅
J
(
z
→
x
)
=
g
1
(
z
(
1
)
)
⋅
f
2
(
x
(
2
)
)
=
g
1
(
x
(
1
)
−
Σ
12
Σ
22
−
1
x
(
2
)
)
⋅
f
2
(
x
(
2
)
)
,
f
(
x
(
1
)
∣
x
(
2
)
)
=
f
(
x
(
1
)
,
x
(
2
)
)
f
2
(
x
(
2
)
)
=
g
1
(
x
(
1
)
−
Σ
12
Σ
22
−
1
x
(
2
)
)
=
1
(
2
π
)
r
/
2
∣
Σ
11
⋅
2
∣
1
/
2
exp
{
(
x
(
1
)
−
Σ
12
Σ
22
−
1
x
(
2
)
−
Σ
12
Σ
22
μ
(
2
)
)
′
Σ
11
⋅
2
−
1
(
x
(
1
)
−
Σ
12
Σ
22
−
1
x
(
2
)
−
Σ
12
Σ
22
−
1
μ
(
2
)
)
}
=
1
(
2
π
)
r
/
2
∣
Σ
11
⋅
2
∣
1
/
2
exp
{
(
x
(
1
)
−
μ
11
⋅
2
)
′
Σ
11
⋅
2
−
1
(
x
(
1
)
−
μ
11
⋅
2
)
}
\begin{aligned} f(x^{(1)},x^{(2)})=&g(z^{(1)},z^{(2)})\cdot J(z\to x)\\ =&g_1(z^{(1)})\cdot f_2(x^{(2)})\\ =&g_1(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1} x^{(2)})\cdot f_2(x^{(2)}),\\ f(x^{(1)}|x^{(2)})=&\frac{f(x^{(1)},x^{(2)})}{f_2(x^{(2)})}\\ =&g_1(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)})\\ =&\frac{1}{(2\pi)^{r/2}|\Sigma_{11\cdot2}|^{1/2}}\\& \exp\left\{ (x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}-\Sigma_{12}\Sigma_{22}\mu^{(2)})'\Sigma_{11\cdot 2}^{-1}(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)}) \right\}\\ =&\frac{1}{(2\pi)^{r/2}|\Sigma_{11\cdot2}|^{1/2}}\exp\left\{ (x^{(1)}-\mu_{11\cdot 2})'\Sigma_{11\cdot 2}^{-1}(x^{(1)}-\mu_{11\cdot 2}) \right\} \end{aligned}
f(x(1),x(2))===f(x(1)∣x(2))====g(z(1),z(2))⋅J(z→x)g1(z(1))⋅f2(x(2))g1(x(1)−Σ12Σ22−1x(2))⋅f2(x(2)),f2(x(2))f(x(1),x(2))g1(x(1)−Σ12Σ22−1x(2))(2π)r/2∣Σ11⋅2∣1/21exp{(x(1)−Σ12Σ22−1x(2)−Σ12Σ22μ(2))′Σ11⋅2−1(x(1)−Σ12Σ22−1x(2)−Σ12Σ22−1μ(2))}(2π)r/2∣Σ11⋅2∣1/21exp{(x(1)−μ11⋅2)′Σ11⋅2−1(x(1)−μ11⋅2)}
也就是
(
X
(
1
)
∣
X
(
2
)
)
∼
N
r
(
μ
1
⋅
2
,
Σ
11
⋅
2
)
(X^{(1)}|X^{(2)})\sim N_r(\mu_{1\cdot2},\Sigma_{11\cdot2})
(X(1)∣X(2))∼Nr(μ1⋅2,Σ11⋅2),证明了结论。
在结论的证明过程中,我们注意到 Σ 12 Σ 22 − 1 \Sigma_{12}\Sigma_{22}^{-1} Σ12Σ22−1是一个很重要的量,它消除了 X ( 1 ) X^{(1)} X(1)对 X ( 2 ) X^{(2)} X(2)的关联部分,我们称 Σ 12 Σ 22 − 1 \Sigma_{12}\Sigma_{22}^{-1} Σ12Σ22−1是 X ( 1 ) X^{(1)} X(1)对 X ( 2 ) X^{(2)} X(2)的回归系数,类似地, Σ 21 Σ 11 − 1 \Sigma_{21}\Sigma_{11}^{-1} Σ21Σ11−1就是 X ( 2 ) X^{(2)} X(2)对 X ( 1 ) X^{(1)} X(1)的回归系数;同时, X ( 1 ) X^{(1)} X(1)在扣除其对 X ( 2 ) X^{(2)} X(2)的回归部分后,与 X ( 2 ) X^{(2)} X(2)是独立的; X ( 2 ) X^{(2)} X(2)在扣除其对 X ( 1 ) X^{(1)} X(1)的回归部分后与 X ( 1 ) X^{(1)} X(1)是独立的,这些都是在证明中得到的结论。
在给定
X
(
2
)
X^{(2)}
X(2)时
X
(
1
)
X^{(1)}
X(1)的条件期望
μ
1
⋅
2
=
μ
(
1
)
+
Σ
12
Σ
22
−
1
(
x
(
2
)
−
μ
(
2
)
)
\mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)})
μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2))称为
X
(
1
)
X^{(1)}
X(1)对
X
(
2
)
X^{(2)}
X(2)的回归。记
Σ
11
⋅
2
=
(
σ
i
j
⋅
2
)
r
×
r
\Sigma_{11\cdot 2}=(\sigma_{ij\cdot2})_{r\times r}
Σ11⋅2=(σij⋅2)r×r,则给定
X
(
2
)
X^{(2)}
X(2)时
X
i
,
X
j
∈
X
(
1
)
X_i,X_j\in X^{(1)}
Xi,Xj∈X(1)的“条件相关系数”称为偏相关系数,即
r
i
j
⋅
2
=
σ
i
j
⋅
2
σ
i
i
⋅
2
σ
j
j
⋅
2
.
r_{ij\cdot2}=\frac{\sigma_{ij\cdot2}}{\sqrt{\sigma_{ii\cdot2}\sigma_{jj\cdot2}}}.
rij⋅2=σii⋅2σjj⋅2σij⋅2.
4.最佳预测
在实际生活中,我们可能会用某个对象的若干个属性,对一个属性进行预测。其中,若干个属性是可以测量的,需要预测的属性是不可测量需要估计的。如何将这个属性最好地估计出来是一个需要考虑的问题,因此我们在多元正态分布的分块中,将分量分成(待估的) 1 1 1个一组和(可测的) p p p个一组,讨论这类特殊情况。
如果将正态随机向量拆分为
1
1
1个分量与
p
p
p个分量构成的两组,也就是
Z
=
[
X
Y
]
p
1
∼
N
p
+
1
(
[
μ
X
μ
y
]
,
[
Σ
X
X
Σ
X
y
Σ
y
X
σ
y
y
]
)
,
Z=\begin{bmatrix} X\\Y \end{bmatrix}\begin{matrix} p\\1 \end{matrix}\sim N_{p+1}\left(\begin{bmatrix} \mu_X\\\mu_y \end{bmatrix},\begin{bmatrix} \Sigma_{XX} & \Sigma_{Xy} \\ \Sigma_{yX} & \sigma_{yy} \end{bmatrix}\right),
Z=[XY]p1∼Np+1([μXμy],[ΣXXΣyXΣXyσyy]),
如果给定
X
X
X,则一维随机正态变量
Y
Y
Y的方差为
D
(
Y
∣
X
=
x
)
=
σ
y
y
−
Σ
y
X
Σ
X
X
−
1
/
2
Σ
X
y
{\rm D}(Y|X=x)=\sigma_{yy}-\Sigma_{yX}\Sigma_{XX}^{-1/2}\Sigma_{Xy}
D(Y∣X=x)=σyy−ΣyXΣXX−1/2ΣXy,期望为
E
(
Y
∣
X
=
x
)
=
μ
y
+
Σ
y
X
Σ
X
X
(
x
−
μ
X
)
{\rm E}(Y|X=x)=\mu_y+\Sigma_{yX}\Sigma_{XX}(x-\mu_X)
E(Y∣X=x)=μy+ΣyXΣXX(x−μX)。称
Y
Y
Y与
X
=
(
X
1
,
⋯
,
X
p
)
′
X=(X_1,\cdots,X_p)'
X=(X1,⋯,Xp)′的全相关系数为
R
=
(
Σ
y
X
Σ
X
X
−
1
Σ
X
y
σ
y
y
)
1
/
2
.
R=\left(\frac{\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}} \right)^{1/2}.
R=(σyyΣyXΣXX−1ΣXy)1/2.
可以看到,满足
σ
y
y
(
1
−
R
2
)
=
D
(
Y
)
\sigma_{yy}(1-R^2)={\rm D}(Y)
σyy(1−R2)=D(Y),所以给定
X
X
X的情况下,
Y
∣
X
Y|X
Y∣X的方差与
X
X
X的测定值无关,只与
Y
Y
Y自身的方差与全相关系数有关,且全相关系数越大,
Y
∣
X
Y|X
Y∣X的方差就越小。
另外,条件期望
E
(
Y
∣
X
=
x
)
=
d
e
f
g
(
x
)
{\rm E}(Y|X=x)\stackrel {\rm def}=g(x)
E(Y∣X=x)=defg(x),实际上是在均方误差最小的准则下,对
Y
Y
Y的最佳预测函数,因为对任何其他
p
p
p元函数
φ
(
x
)
\varphi(x)
φ(x),都有
E
[
(
Y
−
φ
(
x
)
)
2
]
=
E
[
(
Y
−
g
(
x
)
)
2
]
+
E
[
(
g
(
x
)
−
φ
(
x
)
)
2
]
−
2
E
[
(
Y
−
g
(
x
)
)
(
g
(
x
)
−
φ
(
x
)
)
]
≥
E
[
(
Y
−
g
(
x
)
)
2
]
−
2
E
[
(
Y
−
g
(
x
)
)
(
g
(
x
)
−
φ
(
x
)
)
]
=
E
[
(
Y
−
g
(
x
)
)
2
]
−
2
E
[
E
(
(
Y
−
g
(
x
)
)
(
g
(
x
)
−
φ
(
x
)
)
∣
x
)
]
=
E
[
(
Y
−
g
(
x
)
)
2
]
.
\begin{aligned} &{\rm E}[(Y-\varphi(x))^2]\\ =&{\rm E}[(Y-g(x))^2]+{\rm E}[(g(x)-\varphi(x))^2]-2{\rm E}[(Y-g(x))(g(x)-\varphi(x))]\\ \ge&{\rm E}[(Y-g(x))^2]-2{\rm E}[(Y-g(x))(g(x)-\varphi(x))]\\ =&{\rm E}[(Y-g(x))^2]-2{\rm E}[{\rm E}((Y-g(x))(g(x)-\varphi(x)) |x)]\\ =&{\rm E}[(Y-g(x))^2]. \end{aligned}
=≥==E[(Y−φ(x))2]E[(Y−g(x))2]+E[(g(x)−φ(x))2]−2E[(Y−g(x))(g(x)−φ(x))]E[(Y−g(x))2]−2E[(Y−g(x))(g(x)−φ(x))]E[(Y−g(x))2]−2E[E((Y−g(x))(g(x)−φ(x))∣x)]E[(Y−g(x))2].
回顾总结
-
多元正态分布有四种定义方式,除了第一种从独立标准正态分布的线性变换入手外,另外三种都从随机向量自身的性质入手,分别是特征函数、正态性结构、密度函数。其中特征函数与密度函数(要求正定协方差阵)如下:
φ X ( t ) = exp [ i t ′ X − 1 2 t ′ A A ′ t ] . f ( x ) = 1 ( 2 π ) p / 2 ∣ Σ ∣ 1 / 2 exp [ ( x − μ ) ′ Σ − 1 ( x − μ ) ] . \varphi_X(t)=\exp\left[{\rm i}t'X-\frac12t'AA't \right].\\ f(x)=\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left[(x-\mu)'\Sigma^{-1}(x-\mu) \right]. φX(t)=exp[it′X−21t′AA′t].f(x)=(2π)p/2∣Σ∣1/21exp[(x−μ)′Σ−1(x−μ)]. -
对正态随机向量,不相关与独立等价,从而分量组独立,则分组协方差阵是分块对角阵。特别当每个分量都独立时,协方差阵是对角阵。
-
对于正态随机向量的分量组 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2), X ( 1 ) X^{(1)} X(1)对 X ( 2 ) X^{(2)} X(2)的回归系数为 Σ 12 Σ 22 − 1 \Sigma_{12}\Sigma_{22}^{-1} Σ12Σ22−1,如果从 X ( 1 ) X^{(1)} X(1)中扣掉回归部分 Σ 12 Σ 22 − 1 X ( 2 ) \Sigma_{12}\Sigma_{22}^{-1}X^{(2)} Σ12Σ22−1X(2),则剩余部分与 X ( 2 ) X^{(2)} X(2)独立。在给定 X ( 2 ) X^{(2)} X(2)的情况下,
X ( 1 ) ∣ X ( 2 ) ∼ N r ( μ 1 ⋅ 2 , Σ 11 ⋅ 2 ) = N r ( μ ( 1 ) + Σ 12 Σ 22 − 1 ( x ( 2 ) − μ ( 2 ) ) , Σ 11 − Σ 12 Σ 22 − 1 Σ 21 ) . X^{(1)}|X^{(2)}\sim N_r(\mu_{1\cdot2},\Sigma_{11\cdot2})=N_r(\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}(x^{(2)}-\mu^{(2)}),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}). X(1)∣X(2)∼Nr(μ1⋅2,Σ11⋅2)=Nr(μ(1)+Σ12Σ22−1(x(2)−μ(2)),Σ11−Σ12Σ22−1Σ21).
这里,条件期望称为 X ( 1 ) X^{(1)} X(1)对 X ( 2 ) X^{(2)} X(2)的回归。 -
对于正态随机向量分出的 Y Y Y与 p p p维分量 X X X,称 g ( X ) = E ( Y ∣ X ) g(X)={\rm E}(Y|X) g(X)=E(Y∣X)是已知 X X X时 Y Y Y的最佳预测,全相关系数为
R = ( Σ y X Σ X X − 1 Σ X y σ y y ) 1 / 2 . R=\left(\frac{\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}} \right)^{1/2}. R=(σyyΣyXΣXX−1ΣXy)1/2.
全相关系数越大,最佳预测的精确度就越高,方差越小。