先上大佬视频地址: 视频传送门
曾经做过机器学习相关实验的同学,可能大家在实验中会发现,生成的二维高斯分布的样本大概是呈现圆形或者椭圆的形状,但我猜大部分人应该没有做过相关证明吧(比如说我orz)。
这篇文章总结了这位大佬的视频,在视频中他推导出了这个结论。
马氏距离
首先先引入马氏距离:马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。
对于一个均值为
μ
=
(
μ
1
,
μ
2
,
μ
3
,
…
,
μ
p
)
T
\mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}
μ=(μ1,μ2,μ3,…,μp)T,协方差矩阵为
Σ
\Sigma
Σ 的多变量向量
x
=
(
x
1
,
x
2
,
x
3
,
…
,
x
p
)
T
x=(x_{1},x_{2},x_{3},\dots ,x_{p})^{T}
x=(x1,x2,x3,…,xp)T ,其马氏距离为:
D
M
(
x
)
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
D_{M}(x) = (x-\mu)^{T}\Sigma^{-1}(x-\mu)
DM(x)=(x−μ)TΣ−1(x−μ)
也可以定义为两个服从同一分布并且其协方差矩阵为
Σ
\Sigma
Σ 的随机变量
x
x
x 与
y
y
y 的差异程度
D
M
(
x
)
=
(
x
−
y
)
T
Σ
−
1
(
x
−
y
)
D_{M}(x) = (x-y)^{T}\Sigma^{-1}(x-y)
DM(x)=(x−y)TΣ−1(x−y)
关于马氏距离的背景及推导请参考连接:
知乎传送门
高斯分布的表现形式
高维高斯分布表达式如下:
N
(
x
,
μ
,
Σ
)
=
1
(
2
π
)
d
2
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
\begin{aligned} N(\bm{x},\bm{\mu},\bm{\Sigma}) &= \frac{1}{(2\pi)^{\frac{d}{2}}|\bm{\Sigma}|^{\frac{1}{2}}}exp(-\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu})) \end{aligned}
N(x,μ,Σ)=(2π)2d∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
我们可以看到,决定这个概率密度表达式由随机变量
x
x
x 均值
μ
\mu
μ 和协方差矩阵
Σ
\Sigma
Σ 决定,其中只有
x
x
x 是变量,另两个是定值。所以当给定期望和方差时,该密度分布实际上只与
x
x
x 有关,也就是与
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
-\frac{1}{2}(\bm{x}-\bm{\mu})^T\bm{\Sigma^{-1}}(\bm{x}-\bm{\mu})
−21(x−μ)TΣ−1(x−μ) 有关,这个形式其实就是之前提到的马氏距离,为了推导方便,忽略前面的-1/2系数,另:
Δ
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
\Delta = (x-\mu)^T \Sigma^{-1}(x-\mu)
Δ=(x−μ)TΣ−1(x−μ)
下一步我们对上面这个式子做一个变形,以便更好分析:
首先对中间的协方差矩阵进行变形:由于
Σ
\Sigma
Σ 是正定(半正定)矩阵,故一定可以进行特征值分解:
Σ
=
U
Λ
U
T
,
U
T
U
=
U
U
T
=
I
,
Λ
=
d
i
a
g
(
λ
i
)
,
i
=
1
,
2
,
.
.
.
,
p
U
=
(
u
1
,
u
2
,
.
.
.
u
p
)
p
×
p
\Sigma = U\Lambda U^{T}, \quad U^TU = UU^T = I, \quad \Lambda = diag(\lambda_i),i=1,2,...,p \quad U = (u_1,u_2,...u_p)_{p×p}
Σ=UΛUT,UTU=UUT=I,Λ=diag(λi),i=1,2,...,pU=(u1,u2,...up)p×p
所以:
Σ
=
U
Λ
U
T
=
(
u
1
,
u
2
,
.
.
.
,
u
p
)
(
λ
1
0
⋯
0
0
λ
2
⋮
⋮
⋱
⋮
0
⋯
⋯
λ
p
)
(
u
1
T
u
2
T
⋮
u
p
T
)
=
∑
i
=
1
p
u
i
λ
i
u
i
T
,
\Sigma = U\Lambda U^{T} = (u_1,u_2,...,u_p)\begin{pmatrix} \lambda_1 & 0 &\cdots&0 \\ 0& \lambda_2 & & \vdots\\ \vdots &&\ddots&\vdots\\ 0 & \cdots&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} u_1^T \\ u_2^T\\ \vdots \\ u_p^T\\ \end{pmatrix} = \sum_{i=1}^p u_i\lambda_i u_{i}^T,
Σ=UΛUT=(u1,u2,...,up)⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋯⋯⋱⋯0⋮⋮λp⎠⎟⎟⎟⎟⎞⎝⎜⎜⎜⎛u1Tu2T⋮upT⎠⎟⎟⎟⎞=i=1∑puiλiuiT,
所以:
Σ
−
1
=
(
U
Λ
U
T
)
−
1
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(1)
\Sigma^{-1} = (U\Lambda U^{T})^{-1} = \sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T \tag1
Σ−1=(UΛUT)−1=i=1∑puiλi1uiT(1)
将(1)式代入到我们刚才考察的马氏距离中:
Δ
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
(
x
−
μ
)
T
(
∑
i
=
1
p
u
i
1
λ
i
u
i
T
)
(
x
−
μ
)
=
∑
i
=
1
p
[
(
x
−
μ
)
T
u
i
1
λ
i
u
i
T
(
x
−
μ
)
]
\begin{aligned} \Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) &= (x-\mu)^T(\sum_{i=1}^p u_i\frac{1}{\lambda_i} u_{i}^T)(x-\mu) \\ &= \sum_{i=1}^p [(x-\mu)^Tu_i\frac{1}{\lambda_i} u_{i}^T(x-\mu)] \\ \end{aligned}
Δ=(x−μ)TΣ−1(x−μ)=(x−μ)T(i=1∑puiλi1uiT)(x−μ)=i=1∑p[(x−μ)Tuiλi1uiT(x−μ)]
设
y
i
=
(
x
−
μ
)
T
u
i
y_i = (x-\mu)^T u_i
yi=(x−μ)Tui ,由维度知,
y
i
y_i
yi 是一个数,所以
y
i
=
y
i
T
y_i = y_i^T
yi=yiT。所以上式子可继续化为:
Δ
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
∑
i
=
1
p
y
i
1
λ
i
y
i
T
=
∑
i
=
1
p
y
i
2
λ
i
(2)
\Delta = (x-\mu)^T \Sigma^{-1}(x-\mu) = \sum_{i=1}^p y_i\frac{1}{\lambda_i} y_i^T = \sum_{i=1}^p \frac{y_i^2}{\lambda_i} \tag2
Δ=(x−μ)TΣ−1(x−μ)=i=1∑pyiλi1yiT=i=1∑pλiyi2(2)
观察2式,考虑一个特殊情况,当p=2时:
Δ
2
=
∑
i
=
1
2
y
i
2
λ
i
=
y
1
2
λ
1
+
y
2
2
λ
2
(3)
\Delta_2 = \sum_{i=1}^2 \frac{y_i^2}{\lambda_i} = \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} \tag3
Δ2=i=1∑2λiyi2=λ1y12+λ2y22(3)
我们令3式等于一个常数c,也就是让这个
Δ
\Delta
Δ,即马氏距离等于一个常值:
y
1
2
λ
1
+
y
2
2
λ
2
=
c
⟹
y
1
2
c
λ
1
+
y
2
2
c
λ
2
=
1
\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2} = c \Longrightarrow \frac{y_1^2}{c\lambda_1}+\frac{y_2^2}{c\lambda_2} = 1
λ1y12+λ2y22=c⟹cλ1y12+cλ2y22=1
可以看到,当马氏距离一定的时候,动点在
(
y
1
,
y
2
)
(y_1,y_2)
(y1,y2) 平面下是一个标准的椭圆,并且是以原点为中心,长短半轴和两个维度各自的
λ
i
\lambda_i
λi 有关。当马氏距离不定的时候,也就是我们让c开始变化的时候,我们发现,当c越大时,体现在图形上,这个椭圆越大;体现在马氏距离上,这个距离越大,反应到高斯分布的表达式上,这个概率值越小——这是符合我们对高斯分布的认知的,即离期望值越远,其概率密度越小
而我们对于
y
i
y_i
yi 的定义:
y
i
=
(
x
−
μ
)
T
u
i
y_i = (x-\mu)^T u_i
yi=(x−μ)Tui,可以看到是该点原来的坐标先进行0均值化,然后再在变换(旋转)矩阵
U
U
U 的变换下,在其
u
i
u_i
ui 向量(轴)上的投影值(以上内容可以参考PCA中的知识,实际上
λ
i
\lambda_i
λi 是变换后新坐标系下每个维度的方差),故从随机变量x到后来的y,实际上只是进行了坐标的变换(仅限于平移和伸缩),故曲线的形状是没有本质上的变化的(仍然是圆或者椭圆,只不过此时不是以原点为中心,而是以原来坐标系下的均值为中心,长短半轴和协方差矩阵有关)
特殊情况
当协方差矩阵本身就为对角矩阵时(这个时候,每一个样本的个分量相互独立),其特征值矩阵即为自己,故其本身的图形就是一个横平竖直的椭圆,只是中心不为原点。当每个维度的协方差都相等时,该图形就是一个圆,此时称这个高斯分布为各项同性。
结论
通过以上的推导可知,当马氏距离——也就是高斯分布e脑袋上的那一坨一定时候,随机变量是分布在一个椭圆(严格来说是二维的时候,当更高维的时候,是分布在这样的椭球面或更高维度的椭球面)上,故椭圆(椭球面)是高斯分布的等概率线(面)