本文简单概括多元高斯分布的定义、性质与简单应用技术,内容会持续更新。读者也可参考此文。
多元高斯分布定义
设 s s s 维随机向量 x = [ x 1 , x 2 , … , x s ] T x=[x_{1},x_{2},\dots,x_{s}]^{T} x=[x1,x2,…,xs]T 的概率密度函数为:
f ( x 1 , x 2 , … , x s ) = 1 ( 2 π ) s / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(x_{1},x_{2},\dots,x_{s}) = \frac{1}{(2\pi)^{s/2}|\Sigma|^{1/2}}\exp\left( -\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu) \right) f(x1,x2,…,xs)=(2π)s/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中 x = ( x 1 , x 2 , … , x s ) T x = (x_{1},x_{2},\dots,x_{s})^{T} x=(x1,x2,…,xs)T, μ \mu μ 是 s s s 维非随机向量, Σ \Sigma Σ 是 s s s 阶正定阵。则称 x x x 服从 s s s 元高斯(正态)分布,简单记为 x ∼ N s ( μ , Σ ) x\sim N_{s}(\mu,\Sigma) x∼Ns(μ,Σ)。
- μ \mu μ 是 X X X 的均值向量: μ = E [ x ] \mu = \mathbb{E}[x] μ=E[x]。
- Σ \Sigma Σ 是 X X X 的协方差矩阵: Σ = c o v [ x ] = E [ ( x − μ ) ( x − μ ) T ] \Sigma =\mathrm{cov}[x] = \mathbb{E}[(x-\mu)(x-\mu)^{T}] Σ=cov[x]=E[(x−μ)(x−μ)T]
- Σ − 1 \Sigma^{-1} Σ−1 被定义为精度矩阵(Precision Matrix or Concentration Matrix)。
指数函数括号内的表达式被称为两个向量之间的马氏距离(Mahalanobis distance)。为了更深入理解这个值,对 Σ \Sigma Σ进行特征值分解: Σ = U Λ U T \Sigma =U\Lambda U^{T} Σ=UΛUT,其中 U U U是由特征向量组成对标准正交阵, U T U = I U^{T}U=I UTU=I; Λ \Lambda Λ 是由特征值组成的对角阵。
Σ − 1 = U − T Λ − 1 U − 1 = U Λ − 1 U T = ∑ i = 1 s 1 λ i u i u i T \Sigma^{-1} = U^{-T}\Lambda^{-1}U^{-1}=U\Lambda^{-1}U^{T}=\sum_{i=1}^{s}\frac{1}{\lambda_{i}}u_{i}u_{i}^{T} Σ−1=U−TΛ−1U−1=UΛ−1UT=i=1∑sλi1uiuiT 其中 u i u_{i} ui 是 U U U 中的列向量。如此,这个马氏距离可以被重写为:
( x − μ ) T Σ − 1 ( x − μ ) = ( x − μ ) T ( ∑ i = 1 s 1 λ i u i u i T ) ( x − μ ) = ∑ i = 1 s 1 λ i ( x − μ ) T u i u i T ( x − μ ) = ∑ i = 1 s y i 2 λ i \begin{aligned}(x-\mu)^{T}\Sigma^{-1}(x-\mu) &= (x-\mu)^{T}\left( \sum_{i=1}^{s}\frac{1}{\lambda_{i}}u_{i}u_{i}^{T} \right) (x-\mu) \\ &= \sum_{i=1}^{s}\frac{1}{\lambda_{i}}(x-\mu)^{T}u_{i}u_{i}^{T}(x-\mu) \\ &= \sum_{i=1}^{s}\frac{y_{i}^{2}}{\lambda_{i}} \end{aligned} (x−μ)TΣ−1(x−μ)=(x−μ)T(i=1∑sλi1uiuiT)(x−μ)=i=1∑sλi1(x−μ)