高斯分布是概率统计和机器学习中最常用到的分布之一,在数学上经常被记为
N
(
μ
,
∑
)
\mathcal{N}(\mu, \sum)
N(μ,∑),其中
μ
\mu
μ为均值,
∑
\sum
∑是协方差矩阵。高维高斯分布的具体形式如下:
N
(
μ
,
∑
)
=
1
(
2
π
)
D
2
∣
∑
∣
1
2
e
−
1
2
(
x
−
μ
)
T
∑
−
1
(
x
−
μ
)
,
(
1
)
\mathcal{N}(\mu, \sum)=\frac{1}{{(2\pi)}^{\frac{D}{2}}{|\sum|^{\frac{1}{2}}}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)},\ \ \ \ \ \ (1)
N(μ,∑)=(2π)2D∣∑∣211e−21(x−μ)T∑−1(x−μ), (1) 其中
D
D
D是数据
x
\mathbf{x}
x的维度,
∣
∑
∣
|\sum|
∣∑∣是矩阵
∑
\sum
∑的行列式值。
高维高斯分布的形式比较复杂,那么先从一维的高斯分布开始说起。在一维的情况下,
μ
\mu
μ和
∑
\sum
∑均为标量。因此,一维的高斯分布也记为:
N
(
μ
,
σ
2
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
.
(
2
)
\mathcal{N}(\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.\ \ \ \ \ \ (2)
N(μ,σ2)=2πσ1e−2σ2(x−μ)2. (2) 首先,我们来证明公式(2)是一个概率分布,也就是
N
(
μ
,
σ
2
)
\mathcal{N}(\mu, \sigma^2)
N(μ,σ2)在数轴上的积分要等于1。 但是,大家学习微积分的时候应该讲过
e
−
x
2
e^{-x^2}
e−x2(公式(2)可以通过变量替换很容易得到这个形式)这类积分是没有解析解的,尝试用分部积分这些方法也无法得到积分结果。因此,我们必须换个角度来看这个问题,寻找一切相关信息来试图得到积分结果。虽然
e
−
x
2
e^{-x^2}
e−x2是没有原函数的,但是
x
e
−
x
2
xe^{-x^2}
xe−x2是有的,找到这个形式就可以来解决这个问题。因此,我们可以这样操作,求
e
−
(
x
2
+
y
2
)
e^{-(x^2+y^2)}
e−(x2+y2)的积分结果,然后利用这个积分与
e
x
2
e^{x^2}
ex2的积分结果之间的关系,得到最终结果。先来利用极坐标变换试图进行
e
−
(
x
2
+
y
2
)
e^{-(x^2+y^2)}
e−(x2+y2)的积分:
∫
∫
−
∞
∞
e
−
(
x
2
+
y
2
)
d
x
d
y
=
∫
0
2
π
∫
0
∞
e
−
r
2
r
d
r
d
θ
=
∫
0
2
π
−
1
2
e
−
r
2
∣
0
∞
d
θ
=
π
.
\int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy = \int_0^{2\pi}\int_{0}^{\infty}e^{-r^2}rdrd\theta=\int_0^{2\pi}-\frac{1}{2}e^{-r^2}|_{0}^{\infty}d\theta=\pi.
∫∫−∞∞e−(x2+y2)dxdy=∫02π∫0∞e−r2rdrdθ=∫02π−21e−r2∣0∞dθ=π. 又由于
∫
∫
−
∞
∞
e
−
(
x
2
+
y
2
)
d
x
d
y
=
∫
−
∞
∞
e
−
x
2
d
x
∫
−
∞
∞
e
−
y
2
d
y
=
(
∫
−
∞
∞
e
−
x
2
d
x
)
2
\int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy=\int_{-\infty}^{\infty}e^{-x^2}dx\int_{-\infty}^{\infty}e^{-y^2}dy=(\int_{-\infty}^{\infty}e^{-x^2}dx)^2
∫∫−∞∞e−(x2+y2)dxdy=∫−∞∞e−x2dx∫−∞∞e−y2dy=(∫−∞∞e−x2dx)2, 所以
∫
−
∞
∞
e
−
x
2
d
x
=
π
\int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi}
∫−∞∞e−x2dx=π. 下面我们由这个事实来证明
N
(
μ
,
σ
2
)
\mathcal{N}(\mu, \sigma^2)
N(μ,σ2)在数轴上积分等于1。
∫
−
∞
∞
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
d
x
=
∫
−
∞
∞
1
2
π
σ
e
−
y
2
2
σ
2
d
y
=
∫
−
∞
∞
1
2
π
σ
e
−
(
y
2
σ
)
2
d
y
,
\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy,
∫−∞∞2πσ1e−2σ2(x−μ)2dx=∫−∞∞2πσ1e−2σ2y2dy=∫−∞∞2πσ1e−(2σy)2dy, 再次进行变量代换,令
z
=
y
2
σ
z=\frac{y}{\sqrt{2}\sigma}
z=2σy,代入上式可得:
∫
−
∞
∞
1
2
π
σ
e
−
(
y
2
σ
)
2
d
y
=
∫
−
∞
∞
1
2
π
σ
e
−
z
2
2
σ
d
z
=
∫
−
∞
∞
1
π
e
−
z
2
d
z
=
1
\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-z^2}\sqrt{2}\sigma dz=\int_{-\infty}^{\infty}\frac{1}{\sqrt{\pi}}e^{-z^2}dz=1
∫−∞∞2πσ1e−(2σy)2dy=∫−∞∞2πσ1e−z22σdz=∫−∞∞π1e−z2dz=1
数学上的形式变换会带来意想不到的惊喜,寻找对证明、算法设计有益处的变换要靠我们对公式形式的仔细观察。所谓曲径通幽,柳暗花明。世界上唯一不变的是变化,数学推导和证明更是体现了这一点,要求我们要从各个角度考察手头的问题。
为了帮助大家记忆公式(1),特别是其中的
D
2
\frac{D}{2}
2D的指数,我们来看一个简单的事实:
∫
.
.
∫
−
∞
∞
e
−
(
x
1
−
μ
1
)
2
+
.
.
.
+
(
x
D
−
μ
D
)
2
2
σ
2
d
x
1
d
x
2
.
.
.
d
x
D
=
∫
−
∞
∞
e
−
(
x
1
−
μ
1
)
2
2
σ
2
∫
−
∞
∞
e
−
(
x
2
−
μ
2
)
2
2
σ
2
.
.
.
∫
−
∞
∞
e
−
(
x
D
−
μ
D
)
2
2
σ
2
=
2
π
D
σ
D
=
(
2
π
)
D
2
(
σ
2
)
D
2
\int..\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2+...+(x_D-\mu_D)^2}{2\sigma^2}}dx_1dx_2...dx_D\\=\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2}{2\sigma^2}}\int_{-\infty}^{\infty}e^{-\frac{(x_2-\mu_2)^2}{2\sigma^2}}...\int_{-\infty}^{\infty}e^{-\frac{(x_D-\mu_D)^2}{2\sigma^2}}=\sqrt{2\pi}^D\sigma^D=(2\pi)^\frac{D}{2}({\sigma^2})^{\frac{D}{2}}
∫..∫−∞∞e−2σ2(x1−μ1)2+...+(xD−μD)2dx1dx2...dxD=∫−∞∞e−2σ2(x1−μ1)2∫−∞∞e−2σ2(x2−μ2)2...∫−∞∞e−2σ2(xD−μD)2=2πDσD=(2π)2D(σ2)2D上式相当于将公式(1)中的协方差矩阵
∑
\sum
∑设为一个对角阵,且对角线上元素是
σ
2
\sigma^2
σ2而得到公式(1)中exp函数的指数部分。这个事实也证明了公式(1)在协方差矩阵
∑
\sum
∑为对角阵的情况下在整个定义域积分为1.
最后,我们还有一个任务,证明公式(1)的最普遍的形式在整个定义域上积分为1,可以做为概率分布使用。为了得到这个结论,首先说明一下,协方差矩阵
∑
\sum
∑是一个对称正定阵,其逆矩阵必然存在且可进行特征值分解,即:
∑
−
1
=
U
T
Γ
U
\sum^{-1}=\mathbf{U}^T\mathbf{\Gamma}\mathbf{U}
∑−1=UTΓU, 其中
Γ
\mathbf{\Gamma}
Γ为对角阵,对角线元数为
∑
−
1
\sum^{-1}
∑−1特征值。
U
\mathbf{U}
U为正交阵,即
U
T
U
=
I
\mathbf{U}^T\mathbf{U}=\mathbf{I}
UTU=I。
∫
.
.
.
∫
−
∞
∞
e
−
1
2
(
x
−
μ
)
T
∑
−
1
(
x
−
μ
)
d
x
1
.
.
d
x
D
=
y
=
x
−
μ
∫
.
.
.
∫
−
∞
∞
e
−
1
2
y
T
∑
−
1
y
d
y
1
.
.
d
y
D
=
∫
.
.
.
∫
−
∞
∞
e
−
1
2
y
T
U
T
Γ
U
y
d
y
1
.
.
d
y
D
=
z
=
U
y
∫
.
.
.
∫
−
∞
∞
e
−
1
2
z
T
Γ
z
∣
U
T
∣
d
z
1
.
.
d
z
D
,
\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)}dx_1..dx_D\underset{\mathbf{y}=\mathbf{x}-\mu}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \sum^{-1}\mathbf{y}}dy_1..dy_D\\=\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \mathbf{U}^T\mathbf{\Gamma}\mathbf{U}\mathbf{y}}dy_1..dy_D\underset{\mathbf{z = Uy}}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{z}^T\mathbf{\Gamma}\mathbf{z}}|U^T|dz_1..dz_D,
∫...∫−∞∞e−21(x−μ)T∑−1(x−μ)dx1..dxDy=x−μ=∫...∫−∞∞e−21yT∑−1ydy1..dyD=∫...∫−∞∞e−21yTUTΓUydy1..dyDz=Uy=∫...∫−∞∞e−21zTΓz∣UT∣dz1..dzD, 其中
U
\mathbf{U}
U为正交阵,所以
∣
U
∣
=
∣
U
T
∣
=
1
|\mathbf{U}|=|\mathbf{U}^T|=1
∣U∣=∣UT∣=1,且
∣
Γ
∣
=
∣
∑
−
1
∣
=
1
∣
∑
∣
|\mathbf{\Gamma}| = |\sum^{-1}|=\frac{1}{|\sum|}
∣Γ∣=∣∑−1∣=∣∑∣1。设
Γ
\mathbf{\Gamma}
Γ的对角线元数为
1
σ
1
2
,
.
.
.
,
1
σ
D
2
\frac{1}{\sigma_1^2},...,\frac{1}{\sigma_D^2}
σ121,...,σD21, 其中
σ
i
\sigma_i
σi为矩阵
∑
\sum
∑特征值的开方 (对称正定阵的特征值大于0,不熟悉的同学请看矩阵分析),上式可转化为:
∫
.
.
.
∫
−
∞
∞
e
−
1
2
(
(
z
1
σ
1
)
2
+
(
z
2
σ
2
)
2
+
.
.
.
+
(
z
D
σ
D
)
2
)
d
z
1
.
.
d
z
D
=
2
π
σ
1
2
π
σ
2
.
.
.
2
π
σ
D
=
(
2
π
)
D
2
∣
∑
∣
1
2
\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}((\frac{z_1}{\sigma_1})^2+(\frac{z_2}{\sigma_2})^2+...+(\frac{z_D}{\sigma_D})^2)}dz_1..dz_D=\sqrt{2\pi}\sigma_1\sqrt{2\pi}\sigma_2...\sqrt{2\pi}\sigma_D=(2\pi)^{\frac{D}{2}}|\sum|^{\frac{1}{2}}
∫...∫−∞∞e−21((σ1z1)2+(σ2z2)2+...+(σDzD)2)dz1..dzD=2πσ12πσ2...2πσD=(2π)2D∣∑∣21
由此,公式(1)的积分为1得证。