本篇内容主要是对于基本书籍教材多元正态分布相关章节所写的学习笔记,结合自己的理解尽可能表述得通俗易懂,主要思路内容取自《程序员的数学之概率统计》。
前言
多元正态分布就是含有多个变量的正态分布,为什么关于多元正态分布要专门写一篇学习笔记?因为其具有重要意义,在理论研究或者实际应用中,我们常会首先考虑多元正态分布是否适用,如果不符,再考虑其他类型的分布。基于下面两个特征,多元正态分布应用十分广泛:
- 多元正态分布的表达式易于处理,且理论推导的结果较为简洁
- 现实生活中很多问题都能通过多元正态分布解释或近似
多元正态分布的数学形式复杂,但大多情况下都可以通过椭圆或椭圆体表述,这就是学习时需要具备的几何理解。
多元标准正态分布
定义:如果列向量
Z
=
(
Z
1
,
…
,
Z
n
)
T
Z=(Z_1,\dots,Z_n)^T
Z=(Z1,…,Zn)T由n个遵从标准正态分布的随机变量
Z
1
,
…
,
Z
n
Z_1,\dots,Z_n
Z1,…,Zn组成,那么称Z遵从n元标准正态分布。二元标准正态分布(均值0方差1)的概率密度及概率密度函数如下图所示:
当
Z
1
,
…
,
Z
n
Z_1,\dots,Z_n
Z1,…,Zn互相独立时,概率密度函数如下:
f
Z
(
z
)
=
g
(
z
1
)
g
(
z
2
)
⋯
g
(
z
n
)
f_{Z}(z)=g\left(z_{1}\right) g\left(z_{2}\right) \cdots g\left(z_{n}\right)
fZ(z)=g(z1)g(z2)⋯g(zn)
这里的g是标准正态分布的概率密度函数,具体形式如下:
f
Z
(
z
)
=
c
exp
(
−
z
1
2
2
)
⋅
c
exp
(
−
z
2
2
2
)
⋯
c
exp
(
−
z
n
2
2
)
f_{Z}(z)=c \exp \left(-\frac{z_{1}^{2}}{2}\right) \cdot c \exp \left(-\frac{z_{2}^{2}}{2}\right) \cdots c \exp \left(-\frac{z_{n}^{2}}{2}\right)
fZ(z)=cexp(−2z12)⋅cexp(−2z22)⋯cexp(−2zn2)
这里的c是根据总概率为1这一条件所求得的常量。整理上式可得到如下表达式:
f
Z
(
z
)
=
d
exp
(
−
1
2
∥
z
∥
2
)
f_{Z}(z)=d \exp \left(-\frac{1}{2}\|z\|^{2}\right)
fZ(z)=dexp(−21∥z∥2)
这就是n元标准正态分布的概率密度函数。d仍是由总概率为1的条件求得的常量。(
c
∫
−
∞
∞
exp
(
−
z
2
/
2
)
d
z
=
1
c\int_{-\infty}^{\infty} \exp \left(-z^{2} / 2\right) d z=1
c∫−∞∞exp(−z2/2)dz=1,
c
=
1
/
2
π
c=1/\sqrt{2\pi}
c=1/2π;
d
=
c
n
d=c^n
d=cn这就是c和d的具体值)
观察n元标准正态分布的概率密度函数,向量z的长度为:
∥
z
∥
=
z
1
2
+
z
2
2
+
⋯
+
z
n
2
=
z
T
z
\|z\|=\sqrt{z_{1}^{2}+z_{2}^{2}+\cdots+z_{n}^{2}}=\sqrt{z^{T} z}
∥z∥=z12+z22+⋯+zn2=zTz
由此可发现,概率密度函数
f
Z
(
z
)
f_Z(z)
fZ(z)的等高线是一个圆或者等值面试一个球面或超球面(这里超球面或者等值线就是所有函数值相同的点连接得到的图形)。
为什么是圆或者球面超球面可以这么理解:
f
Z
(
z
)
f_Z(z)
fZ(z)的表达式中的自变量其实就是
∣
∣
z
∣
∣
||z||
∣∣z∣∣,也就是说,即使不知道向量z具体值,只要确定其长度,就可以计算得到
f
Z
(
z
)
f_Z(z)
fZ(z)。所以只要向量长度相同,函数值就相同,也就是以原点为中心的圆周上任意位置的函数值都相同,这就是球面超球面圆的定义。
确定Z的概率密度函数之后,再来求期望值向量与协方差矩阵。以n=3的情况为例:
E
[
Z
]
=
(
E
[
Z
1
]
E
[
Z
2
]
E
[
Z
3
]
)
=
(
0
0
0
)
=
o
V
[
Z
]
=
(
V
[
Z
1
]
Cov
[
Z
1
,
Z
2
]
Cov
[
Z
1
,
Z
3
]
Cov
[
Z
2
,
Z
1
]
V
[
Z
2
]
Cov
[
Z
2
,
Z
3
]
Cov
[
Z
3
,
Z
1
]
Cov
[
Z
3
,
Z
2
]
V
[
Z
3
]
)
=
(
1
0
0
0
1
0
0
0
1
)
\begin{array}{l} \mathrm{E}[\boldsymbol{Z}]=\left(\begin{array}{c} \mathrm{E}\left[Z_{1}\right] \\ \mathrm{E}\left[Z_{2}\right] \\ \mathrm{E}\left[Z_{3}\right] \end{array}\right)=\left(\begin{array}{l} 0 \\ 0 \\ 0 \end{array}\right)=o \\ \mathrm{V}[\boldsymbol{Z}]=\left(\begin{array}{ccc} \mathrm{V}\left[Z_{1}\right] & \operatorname{Cov}\left[Z_{1}, Z_{2}\right] & \operatorname{Cov}\left[Z_{1}, Z_{3}\right] \\ \operatorname{Cov}\left[Z_{2}, Z_{1}\right] & \mathrm{V}\left[Z_{2}\right] & \operatorname{Cov}\left[Z_{2}, Z_{3}\right] \\ \operatorname{Cov}\left[Z_{3}, Z_{1}\right] & \operatorname{Cov}\left[Z_{3}, Z_{2}\right] & \mathrm{V}\left[Z_{3}\right] \end{array}\right)=\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right) \end{array}
E[Z]=⎝⎛E[Z1]E[Z2]E[Z3]⎠⎞=⎝⎛000⎠⎞=oV[Z]=⎝⎛V[Z1]Cov[Z2,Z1]Cov[Z3,Z1]Cov[Z1,Z2]V[Z2]Cov[Z3,Z2]Cov[Z1,Z3]Cov[Z2,Z3]V[Z3]⎠⎞=⎝⎛100010001⎠⎞
推广到n元的情况也是一样,期望值是n元零向量
o
o
o,协方差矩阵是n元单位矩阵
I
I
I。综上,即可通过
Z
∼
N
(
o
,
I
)
Z \sim N(o,I)
Z∼N(o,I)表示Z遵从n元标准正态分布。有以下性质:
- 各元素标准差均为1
- 不仅坐标轴方向,任意方向标准差都为1
这里由上面已证明的等高线是圆,可从第一条推出第二条。
多元一般正态分布
一般正态分布可由标准正态分布通过平移或缩放得到,同理,多元一般正态分布也可以由多元标准正态分布通过变换得到。在讨论之前先看一下如何通过转换随机变量X来获得需要的期望和方差。假如有两个随机变量Y和Z,他们与X的关系满足
Y
=
X
+
c
Y=X+c
Y=X+c,
Z
=
c
X
Z=cX
Z=cX。那么他们的方差和均值变化的结果如下,先看Y的情况:
E
[
Y
]
=
E
[
X
+
c
]
=
E
[
X
]
+
c
,
V
[
Y
]
=
V
[
X
+
c
]
=
V
[
X
]
E[Y]=E[X+c]=E[X]+c, V[Y]=V[X+c]=V[X]
E[Y]=E[X+c]=E[X]+c,V[Y]=V[X+c]=V[X]
再看Z的情况:
E
[
Z
]
=
E
[
c
X
]
=
c
E
[
X
]
,
V
[
Z
]
=
V
[
c
X
]
=
c
2
V
[
X
]
E[Z]=E[cX]=cE[X], V[Z]=V[cX]=c^2V[X]
E[Z]=E[cX]=cE[X],V[Z]=V[cX]=c2V[X]
根据这些性质,就可以通过转换随机变量X来获得需要的期望值与方差了。例如X的期望为
μ
\mu
μ方差为
σ
2
\sigma^2
σ2,此时只要令
W
=
X
−
μ
σ
W=\frac{X-\mu}{\sigma}
W=σX−μ即可得到期望为0,方差为1的分布了。这个令期望为0方差为1的转换处理过程就叫做标准化(或者归一化)。
缩放与位移相同尺度
设
X
=
σ
Z
+
μ
X=\sigma Z+\mu
X=σZ+μ,其中
σ
\sigma
σ是一个正的常量,
μ
\mu
μ是一个n元的常向量。此时,X的期望值与方差如下:
E
[
X
]
=
σ
E
[
Z
]
+
μ
=
μ
V
[
X
]
=
σ
2
V
[
Z
]
=
σ
2
I
=
(
σ
2
⋱
σ
2
)
\begin{aligned} &\mathrm{E}[\boldsymbol{X}]=\sigma \mathrm{E}[\boldsymbol{Z}]+\boldsymbol{\mu}=\boldsymbol{\mu}\\ &\mathrm{V}[\boldsymbol{X}]=\sigma^{2} \mathrm{V}[\boldsymbol{Z}]=\sigma^{2} I=\left(\begin{array}{ccc} \sigma^{2} & & \\ & \ddots & \\ & & \sigma^{2} \end{array}\right) \end{aligned}
E[X]=σE[Z]+μ=μV[X]=σ2V[Z]=σ2I=⎝⎛σ2⋱σ2⎠⎞
X服从的分布就称为“期望值为
μ
\mu
μ且协方差矩阵为
σ
2
I
\sigma^2 I
σ2I的n元正态分布”,记作
X
∼
N
(
μ
,
σ
2
I
)
X \sim N(\mu, \sigma^2 I)
X∼N(μ,σ2I)。二元情况下其概率密度与概率密度函数如下图所示:
上面右图的体积为1,基准圆圆心变为
μ
\mu
μ,半径变为
σ
\sigma
σ。
缩放与位移不同尺度
上一部分的缩放中,所有方向的缩放程度是相等的。如果不同坐标轴缩放倍率不同,那就会得到一个椭圆状分布。基准圆也会变为椭圆。还是以列向量
Z
=
(
Z
1
,
…
,
Z
n
)
T
Z=(Z_1,\dots,Z_n)^T
Z=(Z1,…,Zn)T为例,如果对Z的各个元素分别缩放不同倍,得到
X
=
(
σ
1
Z
1
,
⋯
,
σ
n
Z
n
)
T
\boldsymbol{X} =\left(\sigma_{1} Z_{1}, \cdots, \sigma_{n} Z_{n}\right)^{T}
X=(σ1Z1,⋯,σnZn)T,这一变换的矩阵形式如下:
X
=
D
Z
,
D
≡
(
σ
1
⋱
σ
n
)
\boldsymbol{X}=D \boldsymbol{Z}, \quad D \equiv\left(\begin{array}{ccc} \sigma_{1} & & \\ & \ddots & \\ & & \sigma_{n} \end{array}\right)
X=DZ,D≡⎝⎛σ1⋱σn⎠⎞
此时X的协方差矩阵是如下对角阵:
V
[
X
]
=
D
2
=
(
σ
1
2
⋱
σ
n
2
)
\mathrm{V}[\boldsymbol{X}]=D^{2}=\left(\begin{array}{ccc} \sigma_{1}^{2} & & \\ & \ddots & \\ & & \sigma_{n}^{2} \end{array}\right)
V[X]=D2=⎝⎛σ12⋱σn2⎠⎞
协方差矩阵的求解推导过程如下(如果对下面推导过程不明白,可参考之前博文协方差与协方差矩阵内容):
V
[
X
]
=
V
[
D
Z
]
=
D
V
[
Z
]
D
T
=
D
I
D
T
=
D
2
\mathrm{V}[\boldsymbol{X}]=\mathrm{V}[D \boldsymbol{Z}]=D \mathrm{V}[\boldsymbol{Z}] D^{T}=D I D^{T}=D^{2}
V[X]=V[DZ]=DV[Z]DT=DIDT=D2
如果再加上常向量
μ
\mu
μ来使其在各个坐标轴方向上平移不同的距离,那么期望值向量会增加
μ
\mu
μ,而协方差矩阵不变。此时的分布就是一般的多元正态分布的形式,记作
N
(
μ
,
D
2
)
N(\mu,D^2)
N(μ,D2)。其概率密度与概率密度函数如下图所示:
旋转变换
旋转已有的分布后得到的将是更加一般的多元正态分布,通常我们使用正交矩阵的乘法运算来表示旋转变换。如果X是以原点为中心的多元正态分布,有正交矩阵Q使得
Y
=
Q
X
Y=QX
Y=QX,那么:
E
[
Y
]
=
Q
E
[
X
]
=
o
V
[
Y
]
=
Q
V
[
X
]
Q
T
=
Q
D
2
Q
T
\begin{array}{l} \mathrm{E}[Y]=Q \mathrm{E}[X]=o \\ \mathrm{V}[Y]=Q \mathrm{V}[X] Q^{T}=Q D^{2} Q^{T} \end{array}
E[Y]=QE[X]=oV[Y]=QV[X]QT=QD2QT
由此就得到了一个协方差矩阵不是对角阵的一般多元正态分布。反之,如果希望某个分布属于多元正态分布(如果希望得到的多元正态分布具有符合要求的协方差矩阵V),那么就令其协方差矩阵符合
V
=
Q
D
2
Q
T
V=QD^2Q^T
V=QD2QT这个条件,其中Q为正交阵,D为对角阵。
注意,这个条件和
Q
T
V
Q
=
D
2
Q^TVQ=D^2
QTVQ=D2是等价的。又因为协方差矩阵V是一个对称阵,所以这个条件可以描述为:对于给定的对称阵V,找到一个合适的正交矩阵Q,使得
Q
T
V
Q
Q^TVQ
QTVQ是一个对角阵。这就是通过对称矩阵和正交矩阵实现矩阵对角化的方法。依据的是该定理:如果一个矩阵H是对称矩阵,那么必然存在正交矩阵Q,使得
Q
T
H
Q
Q^THQ
QTHQ为对角阵。这个对角阵的每一个对角元素都是特征值,每个特征值对应的Q中的向量都是特征向量。
解出对角阵后只需使
D
2
=
diag
(
λ
1
,
⋯
,
λ
n
)
D^{2}=\operatorname{diag}\left(\lambda_{1}, \cdots, \lambda_{n}\right)
D2=diag(λ1,⋯,λn)即可解得D为:
D
=
(
λ
1
⋱
λ
n
)
D = \left(\begin{array}{ccc} \sqrt{\lambda_{1}} & & \\ & \ddots & \\ & & \sqrt{\lambda_{n}} \end{array}\right)
D=⎝⎛λ1⋱λn⎠⎞
由此将D与Q代入上面的V的表达式中,即可得到多元正态分布
N
(
o
,
V
)
N(o, V)
N(o,V)。再加上常向量
μ
\mu
μ即可实现平移,得到最一般的多元正态分布
N
(
μ
,
V
)
N(\mu,V)
N(μ,V)。其概率密度与概率密度函数示意图如下:
多元正态分布的概率密度函数
为讨论多元正态分布的各种方便的性质,首先需要知道多元正态分布的概率密度函数。对于n元标准正态分布上面已经推导过其概率密度函数如下:
f
Z
(
z
)
=
1
2
π
n
exp
(
−
1
2
∥
z
∥
2
)
f_{Z}(z)=\frac{1}{\sqrt{2 \pi}^{n}} \exp \left(-\frac{1}{2}\|z\|^{2}\right)
fZ(z)=2πn1exp(−21∥z∥2)
如何对Z进行变换,从而得到一个协方差矩阵为
V
=
Q
D
2
Q
T
V=QD^2Q^T
V=QD2QT的一般n元正态分布呢?
先令
Y
=
Q
D
Z
Y=QDZ
Y=QDZ
这里的Q是正交阵,D是对角线元素全部都为正的对角阵。由于Q和D都是正规矩阵,所以它们的乘积QD也是正规矩阵。
这里再补充一个知识点,即多变量乘以一个正规矩阵变换之后的新变量的概率密度函数和原概率密度函数的关系。该知识点可进行如下描述。
对于
Z
1
=
g
1
(
X
1
,
…
,
X
n
)
,
…
,
Z
n
=
g
n
(
X
1
,
…
,
X
n
)
Z_1=g_1(X_1,\dots,X_n), \dots, Z_n=g_n(X_1,\dots,X_n)
Z1=g1(X1,…,Xn),…,Zn=gn(X1,…,Xn)的概率密度函数f有以下结论:
f
Z
1
,
⋯
,
Z
n
(
z
1
,
⋯
,
z
n
)
=
∣
∂
(
x
1
,
⋯
,
x
n
)
∂
(
z
1
,
⋯
,
z
n
)
∣
f
X
1
,
⋯
,
X
n
(
x
1
,
⋯
,
x
n
)
f_{Z_{1}, \cdots, Z_{n}}\left(z_{1}, \cdots, z_{n}\right)=\left|\frac{\partial\left(x_{1}, \cdots, x_{n}\right)}{\partial\left(z_{1}, \cdots, z_{n}\right)}\right| f_{X_{1}, \cdots, X_{n}}\left(x_{1}, \cdots, x_{n}\right)
fZ1,⋯,Zn(z1,⋯,zn)=∣∣∣∣∂(z1,⋯,zn)∂(x1,⋯,xn)∣∣∣∣fX1,⋯,Xn(x1,⋯,xn)
其中
∂
(
x
1
,
⋯
,
x
n
)
∂
(
z
1
,
⋯
,
z
n
)
≡
det
(
∂
x
1
∂
z
1
⋯
∂
x
1
∂
z
n
⋮
⋮
∂
x
n
∂
z
1
⋯
∂
x
n
∂
z
n
)
=
1
∂
(
z
1
,
⋯
,
z
n
)
/
∂
(
x
1
,
⋯
,
x
n
)
\frac{\partial\left(x_{1}, \cdots, x_{n}\right)}{\partial\left(z_{1}, \cdots, z_{n}\right)} \equiv \operatorname{det}\left(\begin{array}{ccc} \frac{\partial x_{1}}{\partial z_{1}} & \cdots & \frac{\partial x_{1}}{\partial z_{n}} \\ \vdots & & \vdots \\ \frac{\partial x_{n}}{\partial z_{1}} & \cdots & \frac{\partial x_{n}}{\partial z_{n}} \end{array}\right)=\frac{1}{\partial\left(z_{1}, \cdots, z_{n}\right) / \partial\left(x_{1}, \cdots, x_{n}\right)}
∂(z1,⋯,zn)∂(x1,⋯,xn)≡det⎝⎜⎛∂z1∂x1⋮∂z1∂xn⋯⋯∂zn∂x1⋮∂zn∂xn⎠⎟⎞=∂(z1,⋯,zn)/∂(x1,⋯,xn)1
这个知识点讲述了这么一个情况:以二维为例,x和y组成了表示概率密度的平面网格点,而z轴则是概率密度函数值,其和xy平面围成的体积必须为1。当把xy进行线性变换之后,网格的大小也会有倍数的扩大,这个面积的变化就叫做面积扩大率,其数值为
∣
d
e
t
A
∣
|detA|
∣detA∣。既然面积扩大了,那么为了维持体积不变,概率密度函数值就需要缩小相应的倍数。所以,多元标准正态分布的随机变量乘以
A
=
Q
D
A=QD
A=QD之后,概率密度函数就会改变为:
f
Y
(
y
)
=
1
∣
det
A
∣
f
Z
(
A
−
1
y
)
=
1
∣
det
A
∣
⋅
1
2
π
n
exp
(
−
1
2
∥
A
−
1
y
∥
2
)
f_{\boldsymbol{Y}}(\boldsymbol{y})=\frac{1}{|\operatorname{det} A|} f_{\boldsymbol{Z}}\left(A^{-1} \boldsymbol{y}\right)=\frac{1}{|\operatorname{det} A|} \cdot \frac{1}{\sqrt{2 \pi}^{n}} \exp \left(-\frac{1}{2}\left\|A^{-1} \boldsymbol{y}\right\|^{2}\right)
fY(y)=∣detA∣1fZ(A−1y)=∣detA∣1⋅2πn1exp(−21∥∥A−1y∥∥2)
这还不够,这个概率密度函数中体现不出方差的概念。对上面等式右边进行整理,尝试用协方差矩阵V来表示。首先根据下面关系(如果对下面推导过程不明白,可参考之前博文协方差与协方差矩阵内容):
V
=
V
[
A
Z
]
=
A
V
[
Z
]
A
T
=
A
I
A
T
=
A
A
T
V=\mathrm{V}[A Z]=A \mathrm{V}[Z] A^{T}=A I A^{T}=A A^{T}
V=V[AZ]=AV[Z]AT=AIAT=AAT
可得到如下结论
det
V
=
det
(
A
A
T
)
=
(
det
A
)
(
det
A
T
)
=
(
det
A
)
2
\operatorname{det} V=\operatorname{det}\left(A A^{T}\right)=(\operatorname{det} A)\left(\operatorname{det} A^{T}\right)=(\operatorname{det} A)^{2}
detV=det(AAT)=(detA)(detAT)=(detA)2
又由于
V
−
1
=
(
A
A
T
)
−
1
=
(
A
T
)
−
1
A
−
1
=
(
A
−
1
)
T
A
−
1
V^{-1}=\left(A A^{T}\right)^{-1}=\left(A^{T}\right)^{-1} A^{-1}=\left(A^{-1}\right)^{T} A^{-1}
V−1=(AAT)−1=(AT)−1A−1=(A−1)TA−1,可得到如下结果
∥
A
−
1
y
∥
2
=
(
A
−
1
y
)
T
(
A
−
1
y
)
=
y
T
(
A
−
1
)
T
A
−
1
y
=
y
T
V
−
1
y
\left\|A^{-1} \boldsymbol{y}\right\|^{2}=\left(A^{-1} \boldsymbol{y}\right)^{T}\left(A^{-1} \boldsymbol{y}\right)=\boldsymbol{y}^{T}\left(A^{-1}\right)^{T} A^{-1} \boldsymbol{y}=\boldsymbol{y}^{T} V^{-1} \boldsymbol{y}
∥∥A−1y∥∥2=(A−1y)T(A−1y)=yT(A−1)TA−1y=yTV−1y
综上,最终结果为:
f
Y
(
y
)
=
1
(
2
π
)
n
det
V
exp
(
−
1
2
y
T
V
−
1
y
)
f_{Y}(y)=\frac{1}{\sqrt{(2 \pi)^{n} \operatorname{det} V}} \exp \left(-\frac{1}{2} y^{T} V^{-1} y\right)
fY(y)=(2π)ndetV1exp(−21yTV−1y)
这就得到了期望值为o的n元正态分布
N
(
o
,
V
)
N(o,V)
N(o,V)的概率密度函数。
这里还有局限性,因为期望值是0,为得到更一般的多元正态分布概率密度函数表达式,令Y位移至
Y
^
=
Y
+
μ
\hat Y=Y+\mu
Y^=Y+μ,即可得到期望值为
μ
\mu
μ的n元正态分布了,由于只是位移,所以面积和体积都不会发生变化,于是其概率密度函数变化如下
f
Y
~
(
y
~
)
=
f
Y
(
y
~
−
μ
)
=
1
(
2
π
)
n
det
V
exp
(
−
1
2
(
y
~
−
μ
)
T
V
−
1
(
y
~
−
μ
)
)
f_{\tilde{Y}}(\tilde{y})=f_{Y}(\tilde{y}-\mu)=\frac{1}{\sqrt{(2 \pi)^{n} \operatorname{det} V}} \exp \left(-\frac{1}{2}(\tilde{y}-\mu)^{T} V^{-1}(\tilde{y}-\mu)\right)
fY~(y~)=fY(y~−μ)=(2π)ndetV1exp(−21(y~−μ)TV−1(y~−μ))
综上,最终可得到n元正态分布的概率密度函数为:
f
(
x
)
=
1
(
2
π
)
n
det
V
exp
(
−
1
2
(
x
−
μ
)
T
V
−
1
(
x
−
μ
)
)
f(\boldsymbol{x})=\frac{1}{\sqrt{(2 \pi)^{n} \operatorname{det} V}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} V^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)
f(x)=(2π)ndetV1exp(−21(x−μ)TV−1(x−μ))
如果觉得上面公式太复杂,可以抽象为如下形式:
f
(
x
)
=
C
exp
(
X
元
素
的
二
次
式
)
f(x)=C \exp(X元素的二次式)
f(x)=Cexp(X元素的二次式)
反之,如果概率密度形如上式,则就可以确定X的分布是一种正态分布。这与一元情况同理,对二次式进行配平得方差期望,之后根据体积为1求得常量。
多元正态分布的性质
多元正态分布具有下面三个良好的性质。
- 可由期望值向量和协方差矩阵确定具体分布
- 如果各随机变量不相关,则一定独立
- 多元正态分布经过线性变换之后还是多元正态分布
- 多元正态分布的条件分布也是多元正态分布
- 多元正态分布的边缘分布也是多元正态分布
对于第一条性质,显然成立。只要计算期望值向量和协方差矩阵将其代入上一部分求出的概率密度函数公式即可解得概率密度函数。
对于第二条性质,解释之前首先要明确一个概念:
如果随机变量X和Y相互独立,那么其协方差为0,即相关系数为0。
如果随机变量X和Y的协方差为0,即相关系数为0,那么X和Y不一定相互独立。
但是,如果X和Y组成二元正态分布,就可以由协方差等于0直接推得X与Y独立。理由如下。
因为协方差是0,所以协方差矩阵V为对角阵,所以其逆矩阵也是对角阵,两个随机变量方差分别为
σ
\sigma
σ和
τ
\tau
τ,那么
f
X
(
x
)
=
□exp
(
−
□
(
x
−
μ
)
T
V
−
1
(
x
−
μ
)
)
=
□
exp
(
−
□
(
x
−
μ
)
2
σ
2
−
□
(
y
−
ν
)
2
τ
2
)
=
□exp
(
−
□
(
x
−
μ
)
2
σ
2
)
exp
(
−
□
(
y
−
ν
)
2
τ
2
)
\begin{aligned} f_{X}(x) &=\operatorname{\square exp}\left(-\square(x-\mu)^{T} V^{-1}(x-\mu)\right)=\square \exp \left(-\square \frac{(x-\mu)^{2}}{\sigma^{2}}-\square \frac{(y-\nu)^{2}}{\tau^{2}}\right) \\ &=\operatorname{\square exp}\left(-\square \frac{(x-\mu)^{2}}{\sigma^{2}}\right) \exp \left(-\square \frac{(y-\nu)^{2}}{\tau^{2}}\right) \end{aligned}
fX(x)=□exp(−□(x−μ)TV−1(x−μ))=□exp(−□σ2(x−μ)2−□τ2(y−ν)2)=□exp(−□σ2(x−μ)2)exp(−□τ2(y−ν)2)
其中
□
\square
□代表无关紧要的常量,上式可以分解为仅含x的式子和仅含y的式子。这就表明了两个随机变量相互独立,为什么呢?
这里看一下独立性的定义。
独立性有多种表述方式,其中最易于理解的就是“无论是否附加条件,分布都不会发生变化”,那对于随机变量X和Y,这个表述的数学表达形式就是,如果下式始终成立,则称X与Y独立。
f
Y
∣
X
(
b
∣
a
)
=
f
Y
(
b
)
f_{Y|X}(b|a)=f_Y(b)
fY∣X(b∣a)=fY(b)
这个表达式等价于:
f
X
,
Y
(
a
,
b
)
=
f
X
(
a
)
f
Y
(
b
)
f_{X,Y}(a,b)=f_X(a)f_Y(b)
fX,Y(a,b)=fX(a)fY(b)
如果随机变量超过两个,该结论依然成立。因为最终
V
[
X
]
V[X]
V[X]是一个对角阵,只要它是对角阵,就可以将概率密度函数分解为仅含单个随机变量的n个正态分布概率密度函数的乘积。
对于第三条性质,对于
X
∼
N
(
μ
,
V
)
\boldsymbol{X} \sim \mathrm{N}(\boldsymbol{\mu}, V)
X∼N(μ,V),假设(正规矩阵)A是一个取值确定的矩阵,经过变量变换
Y
=
A
X
Y=AX
Y=AX将得到一个n元正态分布,变换后的期望值和协方差矩阵如下(如果对下面推导过程不明白,可参考之前博文协方差与协方差矩阵内容):
ν
≡
E
[
Y
]
=
A
E
[
X
]
=
A
μ
W
≡
V
[
Y
]
=
A
V
[
X
]
A
T
=
A
V
A
T
\begin{aligned} \boldsymbol{\nu} & \equiv \mathrm{E}[\boldsymbol{Y}]=A \mathrm{E}[\boldsymbol{X}]=A \boldsymbol{\mu} \\ W & \equiv \mathrm{V}[\boldsymbol{Y}]=A \mathrm{V}[\boldsymbol{X}] A^{T}=A V A^{T} \end{aligned}
νW≡E[Y]=AE[X]=Aμ≡V[Y]=AV[X]AT=AVAT
由于Y具有如下概率密度函数,所以可确认它是一个多元正态分布。
f
Y
(
y
)
=
1
∣
det
A
∣
f
X
(
A
−
1
y
)
=
□
exp
(
−
1
2
(
A
−
1
y
−
μ
)
T
V
−
1
(
A
−
1
y
−
μ
)
)
=
□
exp
(
y
的
元
素
的
二
次
式
)
\begin{aligned} f_{Y}(\boldsymbol{y}) &=\frac{1}{|\operatorname{det} A|} f_{X}\left(A^{-1} y\right) \\ &=\square \exp \left(-\frac{1}{2}\left(A^{-1} \boldsymbol{y}-\boldsymbol{\mu}\right)^{T} V^{-1}\left(A^{-1} \boldsymbol{y}-\boldsymbol{\mu}\right)\right)\\ &=\square \exp \left(y的元素的二次式\right) \end{aligned}
fY(y)=∣detA∣1fX(A−1y)=□exp(−21(A−1y−μ)TV−1(A−1y−μ))=□exp(y的元素的二次式)
对于第四条性质,可以用截面的形式来解读,性质重新描述如下。
假设
X
≡
(
X
1
,
X
2
,
⋯
,
X
n
)
T
\boldsymbol{X} \equiv\left(X_{1}, X_{2}, \cdots, X_{n}\right)^{T}
X≡(X1,X2,⋯,Xn)T遵从n元正态分布
N
(
o
,
V
)
N(o,V)
N(o,V)。在
X
1
=
c
X_1=c
X1=c的条件下,由剩余向量组成的c的条件分布将是一个n-1元正态分布。
接下来是验证,设V的逆矩阵中的元素为r,条件概率密度函数可写为:
f
X
~
∣
X
1
(
x
2
,
⋯
,
x
n
∣
c
)
=
□
exp
(
−
1
2
(
c
,
x
2
,
⋯
,
x
n
)
(
r
11
r
12
⋯
r
1
n
r
21
r
22
⋯
r
2
n
⋮
⋮
⋮
r
n
1
r
n
2
⋯
r
n
n
)
(
c
x
2
⋮
x
n
)
)
=
□
exp
(
x
2
,
⋯
,
x
n
的
二
次
式
)
\begin{array}{l} f_{\tilde{X} | X_{1}}\left(x_{2}, \cdots, x_{n} | c\right) \\ =\square \exp \left(-\frac{1}{2}\left(c, x_{2}, \cdots, x_{n}\right)\left(\begin{array}{cccc} r_{11} & r_{12} & \cdots & r_{1 n} \\ r_{21} & r_{22} & \cdots & r_{2 n} \\ \vdots & \vdots & & \vdots \\ r_{n 1} & r_{n 2} & \cdots & r_{n n} \end{array}\right)\left(\begin{array}{c} c \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right)\right) \\ =\square \exp (x_{2}, \cdots, x_{n}的二次式) \end{array}
fX~∣X1(x2,⋯,xn∣c)=□exp⎝⎜⎜⎜⎛−21(c,x2,⋯,xn)⎝⎜⎜⎜⎛r11r21⋮rn1r12r22⋮rn2⋯⋯⋯r1nr2n⋮rnn⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛cx2⋮xn⎠⎟⎟⎟⎞⎠⎟⎟⎟⎞=□exp(x2,⋯,xn的二次式)
通过类似证明,反复应用该结论,就可证明所有由剩余向量组成的条件分布都是多元正态分布。引入n=3的例子来看看直观理解,当n=3时,三元正态分布的概率密度函数的等值面是椭圆体,截面上就是椭圆,也就是二元正态分布,示意图如下:
如果要计算条件分布的期望值向量与协方差矩阵的值,应用如下通用结论即可。对于这样的分布:
(
X
Y
)
∼
N
(
(
μ
μ
)
,
(
甲
乙
乙
T
丁
)
)
\left(\begin{array}{l} X \\ Y \end{array}\right) \sim \mathrm{N}\left(\left(\begin{array}{l} \mu \\ \mu \end{array}\right),\left(\begin{array}{ll} 甲 & 乙 \\ 乙^{T} & 丁 \end{array}\right)\right)
(XY)∼N((μμ),(甲乙T乙丁))
如果给定X=c,Y的条件分布为
N
(
ν
~
,
W
~
)
\mathrm{N}(\tilde{\boldsymbol{\nu}}, \tilde{W})
N(ν~,W~),其中:
ν
~
≡
ν
+
乙
T
甲
−
1
(
c
−
μ
)
W
~
≡
丁
−
乙
T
甲
−
1
乙
\begin{aligned} \tilde{\nu} & \equiv \nu+乙^{T} 甲^{-1}(c-\mu) \\ \tilde{W} & \equiv 丁-乙^{T} 甲^{-1} 乙 \end{aligned}
ν~W~≡ν+乙T甲−1(c−μ)≡丁−乙T甲−1乙
这里的甲乙丁都是矩阵。
对于第五条性质,可以通过积分计算边缘分布的概率密度函数,通过观察积分可发现,边缘分布其实也是一个多元正态分布。其期望值和协方差矩阵的值很容易就能得到,例如设
X
=
(
X
1
,
X
2
,
X
3
,
X
4
)
T
\boldsymbol{X}=\left(X_{1}, X_{2}, X_{3}, X_{4}\right)^{T}
X=(X1,X2,X3,X4)T,且
X
~
=
(
X
2
,
X
3
,
X
4
)
T
\boldsymbol{\tilde X}=\left(X_{2}, X_{3}, X_{4}\right)^{T}
X~=(X2,X3,X4)T,相应的期望值向量与协方差矩阵如下。
E
[
X
]
=
(
E
[
X
1
]
E
[
X
2
]
E
[
X
3
]
E
[
X
4
]
)
=
(
∗
E
[
X
~
]
)
V
[
X
]
=
(
V
[
X
1
]
Cov
[
X
1
,
X
2
]
Cov
[
X
1
,
X
3
]
Cov
[
X
1
,
X
4
]
Cov
[
X
2
,
X
1
]
V
[
X
2
]
Cov
[
X
2
,
X
3
]
Cov
[
X
2
,
X
4
]
Cov
[
X
3
,
X
1
]
Cov
[
X
3
,
X
2
]
V
[
X
3
]
Cov
[
X
3
,
X
4
]
Cov
[
X
4
,
X
1
]
Cov
[
X
4
,
X
2
]
Cov
[
X
4
,
X
3
]
V
[
X
4
]
)
=
(
∗
∗
∗
∗
∗
∗
V
[
X
~
]
∗
)
\begin{array}{l} \mathrm{E}[\boldsymbol{X}]=\left(\begin{array}{c} \mathrm{E}\left[X_{1}\right] \\ \hline \mathrm{E}\left[X_{2}\right] \\ \mathrm{E}\left[X_{3}\right] \\ \mathrm{E}\left[X_{4}\right] \end{array}\right)=\left(\begin{array}{c} *\\ \hline \\ \mathrm{E}[\tilde{\boldsymbol{X}}]\\ \\ \end{array}\right) \\ \mathrm{V}[\boldsymbol{X}]=\left(\begin{array}{ccc} \mathrm{V}\left[X_{1}\right] & \operatorname{Cov}\left[X_{1}, X_{2}\right] & \operatorname{Cov}\left[X_{1}, X_{3}\right] & \operatorname{Cov}\left[X_{1}, X_{4}\right] \\ \operatorname{Cov}\left[X_{2}, X_{1}\right] & \mathrm{V}\left[X_{2}\right] & \operatorname{Cov}\left[X_{2}, X_{3}\right] & \operatorname{Cov}\left[X_{2}, X_{4}\right] \\ \operatorname{Cov}\left[X_{3}, X_{1}\right] & \operatorname{Cov}\left[X_{3}, X_{2}\right] & \mathrm{V}\left[X_{3}\right] & \operatorname{Cov}\left[X_{3}, X_{4}\right] \\ \operatorname{Cov}\left[X_{4}, X_{1}\right] & \operatorname{Cov}\left[X_{4}, X_{2}\right] & \operatorname{Cov}\left[X_{4}, X_{3}\right] & \mathrm{V}\left[X_{4}\right] \end{array}\right)=\left(\begin{array}{c|ccc} *& * & * & * \\ \hline *\\ *& & \mathrm{V}[\tilde{X}] &\\ * \end{array}\right) \end{array}
E[X]=⎝⎜⎜⎛E[X1]E[X2]E[X3]E[X4]⎠⎟⎟⎞=⎝⎜⎜⎛∗E[X~]⎠⎟⎟⎞V[X]=⎝⎜⎜⎛V[X1]Cov[X2,X1]Cov[X3,X1]Cov[X4,X1]Cov[X1,X2]V[X2]Cov[X3,X2]Cov[X4,X2]Cov[X1,X3]Cov[X2,X3]V[X3]Cov[X4,X3]Cov[X1,X4]Cov[X2,X4]Cov[X3,X4]V[X4]⎠⎟⎟⎞=⎝⎜⎜⎛∗∗∗∗∗∗V[X~]∗⎠⎟⎟⎞
如上面公式所示,只需要从E[X]和V[X]中取出相应部分就能得到边缘分布需要的期望值向量和协方差矩阵。从图形的角度解释,椭圆体的投影也是一个椭圆:
只要反复应用上面得到的结论就能证明所有由剩余向量组成的边缘分布都是多元正态分布。多元正态分布中的各个元素都遵从一元正态分布。因为独立的正态分布经过加法运算后仍然是正态分布。但是需要注意,相反推导是不行的,即我们无法仅凭边缘分布就确定联合分布,除非随机变量之间相互独立。