一、多元高斯分布:
一元高斯分布的概率密度函数如下所示:
p
(
x
)
=
1
σ
2
π
⋅
e
−
1
2
(
x
−
μ
σ
)
2
(
1
)
p(x)={1\over\sigma\sqrt{2\pi}}\centerdot e^{-{1\over2}({x-\mu\over\sigma})^2}\quad\quad\quad(1)
p(x)=σ2π1⋅e−21(σx−μ)2(1)
而如果我们对随机变量X进行标准化,用
Z
=
X
−
μ
σ
Z={X-\mu\over\sigma}
Z=σX−μ对上式进行换元,可得:
x
(
z
)
=
z
⋅
σ
+
μ
x(z)=z\centerdot\sigma+\mu
x(z)=z⋅σ+μ
p
(
x
(
z
)
)
=
1
σ
2
π
⋅
e
−
1
2
(
z
)
2
p(x(z))={1\over\sigma\sqrt{2\pi}}\centerdot e^{-{1\over2}(z)^2}
p(x(z))=σ2π1⋅e−21(z)2
∴
1
=
∫
−
∞
+
∞
p
(
x
(
z
)
)
d
x
\therefore1=\int_{-\infty}^{+\infty}p(x(z))dx
∴1=∫−∞+∞p(x(z))dx
= ∫ − ∞ + ∞ 1 σ 2 π ⋅ e − 1 2 ( z ) 2 d x \quad\quad=\int_{-\infty}^{+\infty}{1\over\sigma\sqrt{2\pi}}\centerdot e^{-{1\over2}(z)^2}dx =∫−∞+∞σ2π1⋅e−21(z)2dx
= ∫ − ∞ + ∞ 1 2 π ⋅ e − 1 2 ( z ) 2 d z \quad\quad=\int_{-\infty}^{+\infty}{1\over\sqrt{2\pi}}\centerdot e^{-{1\over2}(z)^2}dz =∫−∞+∞2π1⋅e−21(z)2dz
此时我们可以说随机变量 Z ∽ N ( 0 , 1 ) Z\backsim N(0,1) Z∽N(0,1)服从一元标准高斯分布,其均值 μ = 0 \mu=0 μ=0,方差 σ 2 = 1 \sigma^2=1 σ2=1,概率密度函数为:
p ( z ) = 1 2 π ⋅ e − 1 2 ( z ) 2 ( 2 ) p(z)={1\over\sqrt{2\pi}}\centerdot e^{-{1\over2}(z)^2}\quad\quad\quad(2) p(z)=2π1⋅e−21(z)2(2)
1.1 多元标准高斯分布
多元标准高斯分布的概率密度函数是由(2)导出的
假
设
有
随
机
向
量
Z
→
=
[
Z
1
,
.
.
.
,
Z
n
]
T
,
其
中
Z
i
∽
N
(
0
,
1
)
且
Z
i
,
Z
j
(
i
,
j
=
1
,
.
.
.
,
n
⋀
i
≠
j
)
彼
此
独
立
,
即
随
机
向
量
中
的
每
一
个
随
机
变
量
Z
i
都
服
从
标
准
高
斯
分
布
并
且
两
两
彼
此
独
立
,
则
由
(
2
)
与
独
立
随
机
变
量
概
率
密
度
函
数
之
间
的
关
系
,
我
们
可
得
随
机
向
量
Z
→
=
[
Z
1
,
.
.
.
,
Z
n
]
T
的
联
合
概
率
密
度
函
数
为
:
假设有随机向量\overrightarrow{Z}=[Z_1,...,Z_n]^T,其中Z_i\backsim N(0,1)且Z_i,Z_j(i,j=1,...,n\bigwedge i\ne j)彼此独立,即随机向量中的每一个随机变量Z_i都服从标准高斯分布并且两两彼此独立,则由(2)与独立随机变量概率密度函数之间的关系,我们可得随机向量\overrightarrow{Z}=[Z_1,...,Z_n]^T的联合概率密度函数为:
假设有随机向量Z=[Z1,...,Zn]T,其中Zi∽N(0,1)且Zi,Zj(i,j=1,...,n⋀i=j)彼此独立,即随机向量中的每一个随机变量Zi都服从标准高斯分布并且两两彼此独立,则由(2)与独立随机变量概率密度函数之间的关系,我们可得随机向量Z=[Z1,...,Zn]T的联合概率密度函数为:
p
(
z
1
,
.
.
.
,
z
n
)
=
∏
i
=
1
n
1
2
π
⋅
e
−
1
2
⋅
(
z
i
)
2
=
1
(
2
π
)
n
2
⋅
e
−
1
2
⋅
(
Z
T
Z
)
p(z_1,...,z_n)=\prod_{i=1}^n{1\over\sqrt{2\pi}}\centerdot e^{-{1\over 2}\centerdot(z_i)^2}={1\over(2\pi)^{n\over2}}\centerdot e^{-{1\over2}\centerdot(Z^TZ)}
p(z1,...,zn)=∏i=1n2π1⋅e−21⋅(zi)2=(2π)2n1⋅e−21⋅(ZTZ)
且:
1
=
∫
−
∞
+
∞
⋯
∫
−
∞
+
∞
p
(
z
1
,
.
.
.
,
z
n
)
d
z
1
.
.
.
d
z
n
1=\int_{-\infty}^{+\infty}\dots\int_{-\infty}^{+\infty}p(z_1,...,z_n)dz_1...dz_n
1=∫−∞+∞⋯∫−∞+∞p(z1,...,zn)dz1...dzn
我们称随机向量 Z → ∽ N ( 0 → , I ) \overrightarrow{Z}\backsim N(\overrightarrow{0},I) Z∽N(0,I),即随机向量服从均值为零向量,协方差矩阵为单位矩阵的高斯分布
1.2 多元高斯分布
对于普通的随机向量 X → ∽ N ( μ , Σ ) \overrightarrow{X}\backsim N(\mu,\Sigma) X∽N(μ,Σ),和其每个随机变量 X i ∽ N ( μ i , σ i 2 ) ( i = 1 , . . . , n ) X_i\backsim N(\mu_i,\sigma_i^2)(i=1,...,n) Xi∽N(μi,σi2)(i=1,...,n)且 X i , X j ( i , j = 1 , . . . , n ) X_i,X_j(i,j=1,...,n) Xi,Xj(i,j=1,...,n)彼此不独立的情况下,我们该怎么求随机向量 X → \overrightarrow{X} X的联合概率密度函数呢,一个很自然的想法是:如果我们能通过线性变换,使得随机向量中的每个随机变量彼此独立,则我们也可以通过独立随机变量概率密度函数之间的关系求出其联合概率密度函数,事实上,我们有如下的定理可以完成这个工作:
1.2.1 定理1
若 存 在 随 机 向 量 X → ∽ N ( μ → , Σ ) , 其 中 μ → ∈ R n 为 均 值 向 量 , Σ ∈ S n × n 为 半 正 定 实 对 称 矩 阵 , 是 X → 的 协 方 差 矩 阵 , 则 存 在 满 秩 矩 阵 B ∈ R n × n , 使 得 Z → = B − 1 ( X → − μ → ) , 而 Z → ∽ N ( 0 → , I ) 若存在随机向量\overrightarrow{X}\backsim N(\overrightarrow{\mu},\Sigma),其中\overrightarrow{\mu}\in R^n为均值向量,\Sigma\in S_{n\times n}为半正定实对称矩阵,是\overrightarrow{X}的协方差矩阵,则存在满秩矩阵B\in R^{n\times n},使得\overrightarrow{Z}=B^{-1}(\overrightarrow{X}-\overrightarrow{\mu}),而\overrightarrow{Z}\backsim N(\overrightarrow{0},I) 若存在随机向量X∽N(μ,Σ),其中μ∈Rn为均值向量,Σ∈Sn×n为半正定实对称矩阵,是X的协方差矩阵,则存在满秩矩阵B∈Rn×n,使得Z=B−1(X−μ),而Z∽N(0,I)
有了定理1,我们就可以对随机向量
X
→
\overrightarrow{X}
X作相应的线性变换,使其随机变量在线性变换后彼此独立,从而求出其联合概率密度函数,具体地:
∵
Z
→
=
B
−
1
(
X
→
−
μ
→
)
,
Z
∽
N
(
0
→
,
I
)
\because\overrightarrow{Z}=B^{-1}(\overrightarrow{X}-\overrightarrow{\mu}),Z\backsim N(\overrightarrow{0},I)
∵Z=B−1(X−μ),Z∽N(0,I)
∴ p ( z 1 , . . . , z n ) = 1 ( 2 π ) n 2 ⋅ e − 1 2 ⋅ ( Z T Z ) \therefore p(z_1,...,z_n)={1\over(2\pi)^{n\over2}}\centerdot e^{-{1\over2}\centerdot(Z^TZ)} ∴p(z1,...,zn)=(2π)2n1⋅e−21⋅(ZTZ)
p
(
z
1
(
x
1
,
.
.
.
,
x
n
)
,
.
.
.
)
=
1
(
2
π
)
n
2
⋅
e
−
1
2
[
(
B
−
1
(
X
→
−
μ
→
)
)
T
(
B
−
1
(
X
→
−
μ
→
)
)
]
\quad p(z_1(x_1,...,x_n),...) ={1\over(2\pi)^{n\over2}}\centerdot e^{-{1\over 2}[(B^{-1}(\overrightarrow{X}-\overrightarrow{\mu}))^T(B^{-1}(\overrightarrow{X}-\overrightarrow{\mu}))]}
p(z1(x1,...,xn),...)=(2π)2n1⋅e−21[(B−1(X−μ))T(B−1(X−μ))]
=
1
(
2
π
)
n
2
⋅
e
−
1
2
[
(
X
→
−
μ
→
)
T
(
B
B
T
)
−
1
(
X
→
−
μ
→
)
]
(
3
)
\quad\quad\quad\quad\quad\quad\quad\quad\quad={1\over(2\pi)^{n\over2}}\centerdot e^{-{1\over 2}[(\overrightarrow{X}-\overrightarrow{\mu})^T(BB^T)^{-1}(\overrightarrow{X}-\overrightarrow{\mu})]}\quad\quad\quad\quad (3)
=(2π)2n1⋅e−21[(X−μ)T(BBT)−1(X−μ)](3)