多元高斯分布的概率密度函数 (PDF) 的详细解释

简介

多元高斯分布,又称为多元正态分布,是将一维(单变量)正态分布推广到更高维度的结果。在统计学和机器学习中,多元高斯分布对于建模具有线性关系的多变量数据至关重要。理解其概率密度函数(PDF)对于参数估计、假设检验以及数据分析等任务非常重要。


多元高斯 PDF 的定义

如何计算协方差矩阵

对于一个随机向量 x ∈ R n \mathbf{x} \in \mathbb{R}^n xRn,其均值向量为 μ ∈ R n \boldsymbol{\mu} \in \mathbb{R}^n μRn,协方差矩阵为 Σ ∈ R n × n \boldsymbol{\Sigma} \in \mathbb{R}^{n \times n} ΣRn×n 的多元高斯分布的概率密度函数(PDF)定义为:

f ( x ) = 1 ( 2 π ) n ∣ Σ ∣ exp ⁡ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{\sqrt{(2\pi)^n |\boldsymbol{\Sigma}|}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) f(x)=(2π)nΣ 1exp(21(xμ)Σ1(xμ))

其中:

  • x \mathbf{x} x:一个 n n n 维的随机向量。
  • μ \boldsymbol{\mu} μ:分布的均值(期望值)向量。
  • Σ \boldsymbol{\Sigma} Σ:协方差矩阵,且该矩阵对称且正定。
  • ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ:协方差矩阵的行列式。
  • Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1:协方差矩阵的逆矩阵。
  • ( x − μ ) ⊤ (\mathbf{x} - \boldsymbol{\mu})^\top (xμ):向量差 ( x − μ ) (\mathbf{x} - \boldsymbol{\mu}) (xμ) 的转置。

各个组成部分的解释

1. 均值向量 ( μ \boldsymbol{\mu} μ)

均值向量表示分布在 n n n 维空间中的中心位置:

μ = E [ X ] = [ E [ X 1 ] E [ X 2 ] ⋮ E [ X n ] ] \boldsymbol{\mu} = E[\mathbf{X}] = \begin{bmatrix} E[X_1] \\ E[X_2] \\ \vdots \\ E[X_n] \end{bmatrix} μ=E[X]= E[X1]E[X2]E[Xn]

其中,每个元素 E [ X i ] E[X_i] E[Xi] 是随机变量 X i X_i Xi 的期望值。

2. 协方差矩阵 ( Σ \boldsymbol{\Sigma} Σ)

协方差矩阵捕获了每个变量的方差和变量之间的协方差:

Σ = [ Var ⁡ [ X 1 ] Cov ⁡ [ X 1 , X 2 ] … Cov ⁡ [ X 1 , X n ] Cov ⁡ [ X 2 , X 1 ] Var ⁡ [ X 2 ] … Cov ⁡ [ X 2 , X n ] ⋮ ⋮ ⋱ ⋮ Cov ⁡ [ X n , X 1 ] Cov ⁡ [ X n , X 2 ] … Var ⁡ [ X n ] ] \boldsymbol{\Sigma} = \begin{bmatrix} \operatorname{Var}[X_1] & \operatorname{Cov}[X_1, X_2] & \dots & \operatorname{Cov}[X_1, X_n] \\ \operatorname{Cov}[X_2, X_1] & \operatorname{Var}[X_2] & \dots & \operatorname{Cov}[X_2, X_n] \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}[X_n, X_1] & \operatorname{Cov}[X_n, X_2] & \dots & \operatorname{Var}[X_n] \end{bmatrix} Σ= Var[X1]Cov[X2,X1]Cov[Xn,X1]Cov[X1,X2]Var[X2]Cov[Xn,X2]Cov[X1,Xn]Cov[X2,Xn]Var[Xn]

  • 方差 X i X_i Xi Var ⁡ [ X i ] = E [ ( X i − E [ X i ] ) 2 ] \operatorname{Var}[X_i] = E[(X_i - E[X_i])^2] Var[Xi]=E[(XiE[Xi])2]
  • 协方差 X i X_i Xi X j X_j Xj 之间的协方差: Cov ⁡ [ X i , X j ] = E [ ( X i − E [ X i ] ) ( X j − E [ X j ] ) ] \operatorname{Cov}[X_i, X_j] = E[(X_i - E[X_i])(X_j - E[X_j])] Cov[Xi,Xj]=E[(XiE[Xi])(XjE[Xj])]
3. 协方差矩阵的行列式 ( ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ)

行列式是一个标量值,表示由协方差矩阵 Σ \boldsymbol{\Sigma} Σ 定义的变换的“体积”缩放因子。它出现在 PDF 的归一化常数中。

4. 协方差矩阵的逆矩阵 ( Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1)

也称为精度矩阵,它量化了变量的不确定性,并用于计算指数中的马氏距离

5. 马氏距离

指数中的项:

D 2 = ( x − μ ) ⊤ Σ − 1 ( x − μ ) D^2 = (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) D2=(xμ)Σ1(xμ)

表示点 x \mathbf{x} x 和均值 μ \boldsymbol{\mu} μ 之间的平方马氏距离,衡量了 x \mathbf{x} x μ \boldsymbol{\mu} μ 多远,考虑了协方差结构。


PDF 的推导

步骤 1:理解单变量情况

对于一个均值为 μ \mu μ 且方差为 σ 2 \sigma^2 σ2 的单变量正态分布,其 PDF 为:

f ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) f(x)=2πσ2 1exp(2σ2(xμ)2)

步骤 2:推广到多变量情况

在多维情况下:

  • 将标量均值 μ \mu μ 替换为均值向量 μ \boldsymbol{\mu} μ
  • 将标量方差 σ 2 \sigma^2 σ2 替换为协方差矩阵 Σ \boldsymbol{\Sigma} Σ
  • 将平方差 ( x − μ ) 2 (x - \mu)^2 (xμ)2 替换为二次型 ( x − μ ) ⊤ Σ − 1 ( x − μ ) (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) (xμ)Σ1(xμ)

步骤 3:确保归一化

归一化常数 1 ( 2 π ) n ∣ Σ ∣ \frac{1}{\sqrt{(2\pi)^n |\boldsymbol{\Sigma}|}} (2π)nΣ 1 确保了 PDF 在整个空间上积分为 1。


多元高斯分布的性质

1. 边际分布

多元高斯向量的任意子集也是高斯分布。如果 X \mathbf{X} X 是多元高斯分布,那么其分量的任意线性组合也是正态分布。

2. 条件分布

给定另一个变量的情况下,多元高斯的条件分布也是高斯分布。条件分布的均值和协方差可以从联合分布中推导出来。

3. 独立性与非相关性

对于多元高斯分布,零协方差意味着独立性。如果 Cov ⁡ [ X i , X j ] = 0 \operatorname{Cov}[X_i, X_j] = 0 Cov[Xi,Xj]=0,则 X i X_i Xi X j X_j Xj 是独立的。

4. 仿射变换

多元高斯随机向量的仿射变换结果也是多元高斯分布。如果 Y = A X + b \mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b} Y=AX+b,则 Y \mathbf{Y} Y 是高斯分布,其均值为 A μ + b \mathbf{A}\boldsymbol{\mu} + \mathbf{b} Aμ+b,协方差为 A Σ A ⊤ \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^\top AΣA


理解马氏距离

马氏距离考虑了变量之间的协方差,提供了一个不依赖尺度的距离度量:

  • 欧几里得距离:假设变量无相关性且具有单位方差,直接测量直线距离。
  • 马氏距离:调整相关性和不同方差,提供了多变量空间中更准确的距离度量。

可视化

1. 等高线图

在二维情况下,PDF 可以可视化为以 μ \boldsymbol{\mu} μ 为中心的椭圆等高线:

  • 椭圆的形状和方向由协方差矩阵 Σ \boldsymbol{\Sigma} Σ 决定。
  • 椭圆上的点具有相同的概率密度。
2. 等值面

在更高维度中,PDF 形成椭球(等值面),在这些椭球上概率密度是常数。


实例

例子 1:二维高斯分布

对于 n = 2 n = 2 n=2,具有变量 X 1 X_1 X1 X 2 X_2 X2,均值向量 μ = [ μ 1 μ 2 ] \boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} μ=[μ1μ2],协方差矩阵为:

Σ = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] \boldsymbol{\Sigma} = \begin{bmatrix}\sigma_1^2 & \rho \sigma_1 \sigma_2 \\\rho \sigma_1 \sigma_2 & \sigma_2^2\end{bmatrix} Σ=[σ12ρσ1σ2ρσ1σ2σ22]

其中:

  • σ 1 2 \sigma_1^2 σ12 σ 2 2 \sigma_2^2 σ22 是方差。
  • ρ \rho ρ X 1 X_1 X1 X 2 X_2 X2 之间的相关系数。

PDF 表达式:

f ( x ) = 1 2 π σ 1 σ 2 1 − ρ 2 exp ⁡ ( − 1 2 ( 1 − ρ 2 ) [ ( x 1 − μ 1 σ 1 ) 2 − 2 ρ ( x 1 − μ 1 σ 1 ) ( x 2 − μ 2 σ 2 ) + ( x 2 − μ 2 σ 2 ) 2 ] ) f(\mathbf{x}) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left[ \left( \frac{x_1 - \mu_1}{\sigma_1} \right)^2 - 2\rho \left( \frac{x_1 - \mu_1}{\sigma_1} \right)\left( \frac{x_2 - \mu_2}{\sigma_2} \right) + \left( \frac{x_2 - \mu_2}{\sigma_2} \right)^2 \right] \right) f(x)=2πσ1σ21ρ2 1exp(2(1ρ2)1[(σ1x1μ1)22ρ(σ1x1μ1)(σ2x2μ2)+(σ2x2μ2)2])

该公式展示了相关性如何影响联合分布。


参数估计

给定一个数据集 { x 1 , x 2 , … , x N } \{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_N\} {x1,x2,,xN},均值向量和协方差矩阵的最大似然估计(MLE)为:

1. 均值向量估计

μ ^ = 1 N ∑ i = 1 N x i \hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{i=1}^N \mathbf{x}_i μ^=N1i=1Nxi

2. 协方差矩阵估计

Σ ^ = 1 N ∑ i = 1 N ( x i − μ ^ ) ( x i − μ ^ ) ⊤ \hat{\boldsymbol{\Sigma}} = \frac{1}{N} \sum_{i=1}^N (\mathbf{x}_i - \hat{\boldsymbol{\mu}})(\mathbf{x}_i - \hat{\boldsymbol{\mu}})^\top Σ^=N1i=1N(xiμ^)(xiμ^)

这些估计值在高斯假设下最大化了似然函数。


应用

1. 机器学习
  • 高斯混合模型(GMMs):用于通过将数据建模为多元高斯分布的混合来进行聚类。
  • 线性判别分析(LDA):假设类的分布是高斯分布,用于降维和分类。
  • 主成分分析(PCA):依赖于数据的协方差矩阵,假设数据呈现高斯分布。
2. 信号处理
  • 卡尔曼滤波器:使用高斯模型来估计动态系统的状态。
  • 噪声建模:高斯噪声是信号和图像处理中常见的假设。
3. 统计推断
  • 假设检验:如Hotelling的 T 2 T^2 T2 检验基于多元正态分布。
  • 置信区域:构建多个参数的同时置信区间。

性质与定理

1. 独立高斯向量的和

如果 X ∼ N ( μ X , Σ X ) \mathbf{X} \sim N(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X) XN(μX,ΣX) Y ∼ N ( μ Y , Σ Y ) \mathbf{Y} \sim N(\boldsymbol{\mu}_Y, \boldsymbol{\Sigma}_Y) YN(μY,ΣY) 是独立的,则:

Z = X + Y ∼ N ( μ X + μ Y , Σ X + Σ Y ) \mathbf{Z} = \mathbf{X} + \mathbf{Y} \sim N(\boldsymbol{\mu}_X + \boldsymbol{\mu}_Y, \boldsymbol{\Sigma}_X + \boldsymbol{\Sigma}_Y) Z=X+YN(μX+μY,ΣX+ΣY)

2. 线性变换

对于任意矩阵 A \mathbf{A} A 和向量 b \mathbf{b} b

Y = A X + b    ⟹    Y ∼ N ( A μ + b , A Σ A ⊤ ) \mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b} \implies \mathbf{Y} \sim N(\mathbf{A}\boldsymbol{\mu} + \mathbf{b}, \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^\top) Y=AX+bYN(Aμ+b,AΣA)


理解归一化常数中的行列式

行列式 ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ n n n 维空间中适当缩放了分布:

  • 较大的行列式意味着更宽的分布。
  • 它调整 PDF 的高度,使得总概率积分为 1。

马氏距离与欧几里得距离的区别

  • 欧几里得距离:假设变量无相关性且具有单位方差,直接测量直线距离。
  • 马氏距离:调整变量之间的相关性和不同的方差,在多变量情况下提供了更准确的距离度量。

为什么协方差矩阵必须是正定的?

  • 正定的 Σ \boldsymbol{\Sigma} Σ 确保二次型 ( x − μ ) ⊤ Σ − 1 ( x − μ ) (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) (xμ)Σ1(xμ) 始终非负。
  • 这保证了指数项为非正,从而确保 PDF 始终为非负且有限。

计算考虑因素

1. 数值稳定性
  • 对协方差矩阵求逆可能对条件不良的矩阵不稳定。
  • 通过在 Σ \boldsymbol{\Sigma} Σ 的对角线上添加小值进行正则化可以提高稳定性。
2. 高维数据
  • n n n 增大时,涉及行列式和逆矩阵的计算变得复杂。
  • 可以通过降维技术(如PCA)减少计算成本。

示例计算

已知:

  • μ = [ 0 0 ] \boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} μ=[00]
  • Σ = [ 1 0.5 0.5 2 ] \boldsymbol{\Sigma} = \begin{bmatrix} 1 & 0.5 \\ 0.5 & 2 \end{bmatrix} Σ=[10.50.52]
  • x = [ 1 − 1 ] \mathbf{x} = \begin{bmatrix} 1 \\ -1 \end{bmatrix} x=[11]

计算 x \mathbf{x} x 处的 PDF:

  1. 计算 ∣ Σ ∣ |\boldsymbol{\Sigma}| Σ

∣ Σ ∣ = ( 1 ) ( 2 ) − ( 0.5 ) 2 = 2 − 0.25 = 1.75 |\boldsymbol{\Sigma}| = (1)(2) - (0.5)^2 = 2 - 0.25 = 1.75 Σ=(1)(2)(0.5)2=20.25=1.75

  1. 计算 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ1

Σ − 1 = 1 ∣ Σ ∣ [ 2 − 0.5 − 0.5 1 ] = 1 1.75 [ 2 − 0.5 − 0.5 1 ] \boldsymbol{\Sigma}^{-1} = \frac{1}{|\boldsymbol{\Sigma}|} \begin{bmatrix} 2 & -0.5 \\ -0.5 & 1 \end{bmatrix} = \frac{1}{1.75} \begin{bmatrix} 2 & -0.5 \\ -0.5 & 1 \end{bmatrix} Σ1=Σ1[20.50.51]=1.751[20.50.51]

  1. 计算马氏距离 D 2 D^2 D2

D 2 = ( x − μ ) ⊤ Σ − 1 ( x − μ ) D^2 = (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) D2=(xμ)Σ1(xμ)

计算 ( x − μ ) = x (\mathbf{x} - \boldsymbol{\mu}) = \mathbf{x} (xμ)=x

x = [ 1 − 1 ] \mathbf{x} = \begin{bmatrix} 1 \\ -1 \end{bmatrix} x=[11]

进行乘法计算,得到 D 2 D^2 D2

  1. 计算 PDF:

f ( x ) = 1 2 π 1.75 exp ⁡ ( − 1 2 D 2 ) f(\mathbf{x}) = \frac{1}{2\pi \sqrt{1.75}} \exp\left( -\frac{1}{2} D^2 \right) f(x)=2π1.75 1exp(21D2)

将已计算的值代入,求得 f ( x ) f(\mathbf{x}) f(x)


结论

多元高斯分布是建模和分析多变量数据的有力工具。其概率密度函数提供了对分布行为的全面描述,通过协方差矩阵涵盖了变量的个体特征及其相互关系。掌握这一概念对于高级统计分析和机器学习应用至关重要。


参考文献

  • Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值