本片博文介绍多元正态分布,我们以
n
维随机变量为主,但给出
考虑随机向量
Z=(Z1,…,Zn)′
,其中
Z1,…,Zn
是独立同分布的
N(0,1)
随机变量,那么对
z∈Rn,Z
的密度为
因为
Zi
的均值为0,方差为1且不相关,所以
Z
的均值与协方差矩阵为
其中
In
表示
n
阶单位矩阵。回忆一下
我们称 Z 是均值为 0 协方差矩阵为 In 的多元正态分布,简写成 Z 满足 Nn(0,In) 分布。
对于一般情况,假设
Σ
是
n×n
的对称,半正定矩阵(psd),那么根据线性代数的知识,我们总能将
Σ
分解为
其中
Λ
是对角矩阵,
Λ=diag(λ1,λ2,…,λn),λ1≥λ2≥⋯λn≥0
是
Σ
的特征值,
Γ′
的列
v1,v2,…,vn
是相应的特征向量,这个分解叫做
Σ
的谱分解,矩阵
Γ
是正交矩阵,即
Γ−1=Γ′
因此
ΓΓ′=I
。另外还可以将谱分解写成如下形式:
因为
λi
是非负的,所以我们能定义对角矩阵
Λ1/2=(λ1‾‾‾√,…,λn‾‾‾√)
,那么
Γ
的正交性就意味着
定义矩阵
Σ
的平方根为
其中
Λ1/2=diag(λ1‾‾‾√,…,λn‾‾‾√)
,注意
Σ1/2
是对称psd矩阵,假设
Σ
是正定的
(pd)
;即它的特征值都为正,那么很容易说明
我们可以将等式左边写成 Σ−1/2 。
Z
满足
N(0,In)
分布,令
Σ
是对称半正定矩阵且
μ
是
n×1
的常向量,随机向量
X
定义为
根据
(2)
可得
进一步
X
的mgf为
这就产生了下面的定义:
定义1:
我们称
n
维随机变量
其中 Σ 是对称半正定矩阵且 μ∈Rn ,我们简单称 X 满足 Nn(μ,Σ) 分布。
注意这里我们是对半正定矩阵进行定义,一般情况
Σ
是正定的,这种情况下我们可以进一步得到
X
的密度。如果
Σ
是正定的,那么
Σ1/2
也是正定的,它的逆就是
(7)
,所以
X,Z
之间的变换
(8)
是一对一的变换,它的逆变换为
雅可比为
|Σ−1/2|=|Σ|−1/2
,因此通过化简得到
X
的pdf为
下面的两个定理非常有用,第一个是说多元正态随机向量的线性变换满足多元正态分布。
定理1: 假设 X 满足 Nn(μ,Σ) 分布,令 Y=AX+b ,其中 A 是 m×n 矩阵且 b∈Rm ,那么 Y 满足 Nm(Aμ+b,AΣA′) 。
证明:
根据
(11)
,对所有的
t∈Rm
,
Y
的mgf为
这是 Nm(Aμ+b,AΣA′) 分布的mgf。 ||
该定理简单的推论给出了多元正态随机变量的边缘分布,令
X1
是
X
的任意子向量,维数
m<n
,因为我们能够重排均值与相关性,不失一般性,
X
可以写成
其中
X2
的维数为
p=n−m
,利用同样的方法拆分
X
的均值与协方差矩阵得:
注意
Σ11
是
X1
得协方差矩阵,
Σ12
包含
X1,X2
元素之间的所有协方差,现在定义
A
为矩阵
其中 Omp 是一个 m×p 的零矩阵,那么 X1=AX 。因此在这个变换上应用定理1可以得到下面的推论:
推论1: 假设 X 满足 Nn(μ,Σ) 分布,将其分成 (13),(14) 的形式,那么 X1 满足 Nm(μ1,Σ11) 分布。
这是个非常有用的结论,因为它说明 X 的任何边缘分布也是正态分布,进一步它的均值与协方差矩阵与其部分向量的均值与方差有关。
例1:
本例展示
n=2
的多元正态情况,这种情况的分布称为二元正态,我们使用常用的符号
(X,Y)
而不是
(X1,X2)
,所以假设
(X,Y)
满足
N2(μ,Σ)
分布,其中
这里
μ1,σ21
分别是
X
的均值与方差;
利用这个表达式,
(X,Y)
的pdf可以写成
其中,
如果
X,Y
是独立的随机变量,那么它们的相关系数为0。如果它们是正态的,根据推论1,
X
满足
一般而言,如果两个随机变量是独立的,那么它们的协方差为0,但是反过来不一定对。然而对于正态情况却为真。
定理2: 假设 X 满足 Nn(μ,Σ) 分布,且如 (13),(14) 那样划分,那么 X1,X2 是独立的,当且仅当 Σ12=O 。
证明:
首先注意到
Σ21=Σ12′
,
X1,X2
的联合mgf为
其中
t=(t′1,t′2)
是与
μ
一样的划分,根据推论1,
X1
满足
Nm(μ1,Σ11)
分布,
X2
满足
Np(μ2,Σ22)
分布,因此它们边缘mgf的乘积为:
X1,X2 是独立的,当且仅当 (19),(20) 想等。如果 Σ12=O ,那么表达式想等且 X1,X2 独立。如果 X1,X2 独立,那么它们元素之间的协方差为0;即 Σ12=O,Σ21=O 。
推论1说明多元正态的边缘分布是正态分布,条件分布同样如此。结合定理1与定理2可以得出下面的定理。
定理3:
假设
X
满足
Nn(μ,Σ)
分布,划分成
(13),(14)
,假设
Σ
是正定的,那么
X1|X2
的条件分布为
证明:
考虑随机变量
W=X1−Σ12Σ−122X2
与
X2
的联合分布,这个分布是通过下面的变换得到的
因为这是一个线性变换,所以根据定理1可知联合分布为多元正态,且
E[W]=μ1−Σ12Σ−122μ2,E[X2]=μ2
,协方差矩阵为
因此根据定理2,随机向量
W,X2
是独立的,故
W|X2
的条件分布与
W
的边缘分布一样;即
W|X2
满足
Nm(μ1−Σ12Σ−122μ2,Σ11−Σ12Σ−122Σ21)
,进一步因为独立性,给定
X2,W+Σ12Σ−122X2
的分布为
得证。 ||
例2:
依然考虑例1的二元情况,我们反转下变量,使得
Y=X1,X=X2
,给定
X=x,Y
的条件分布根据
(21)
可知为
因此而与二元正态分布,给定
X=x
,
Y
的条件均值是
线性条件均值
E(Y|x)
中
x
的系数为
虽然给定
X=x,Y
的条件分布均值依赖
x
(除非
回忆一下,如果随机变量
X
满足
定理4: 假设 X 满足 Nn(μ,Σ) 分布,其中 Σ 是正定矩阵,那么随机变量 W=(X−μ)′Σ−1(X−μ) 满足 χ2(n) 分布。
证明: 将 Σ 写成 Σ1/2Σ1/2 ,其中 Σ1/2 定义为 (6) ,那么 Z=Σ−1/2(X−μ) 满足 Nn(0,In) ,令 W=Z′Z=∑ni=1Z2i ,因为对于 i=1,2,…,n,Zi 满足 N(0,1) 分布,所以 Z2i 满足 χ2(1) 分布,因为 Z1,…,Zn 是独立的标准正态分布,所以 ∑i=1Z2i=W 满足 χ2(n) 分布。