搞懂多变量高斯分布的由来

最新推荐文章于 2023-09-01 11:46:30 发布

weixin_33912445

最新推荐文章于 2023-09-01 11:46:30 发布

阅读量1.5k

点赞数

原文链接：https://juejin.im/post/5b5830c36fb9a04f9963ae77

版权

多变量高斯分布(multivariate Gaussian distribution)的形式如下：

\begin{aligned} \Bbb {N}(\mathbf x|\mathbf{\mu},\mathbf \Sigma) &=\frac{1}{(2\pi)^{\frac{d}{2}}\left|\Sigma\right|^\frac{1}{2}} \exp\{{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)} \} \end{aligned} \quad\quad\quad(1)

其中， $\mu$ 是D维 mean vector， $\Sigma$ 是 $D \times D$ 协方差矩阵，里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差， $|\Sigma|$ 代表协方差矩阵的行列式。

二维高斯分布的图如下所示（来自wikipedia），它的每一个维度都是高斯分布：

本文主要就是讲式(1)的由来。

前置知识：雅可比矩阵和雅可比行列式

设 $f : \mathbb {R}_n \to \mathbb {R}_m$ 是一个函数，它的输入是向量 $\mathbf x \in \mathbb {R}_n$ ，输出是向量 $\mathbf y=f(\mathbf x) \in \mathbb {R}_m$ :

\begin{cases} y_1=f_1(x_1,\dots,x_n) \\ y_2=f_2(x_1,\dots,x_n) \\ \dots \\ y_m=f_n(x_1,\dots,x_n) \end{cases}

那么雅可比矩阵是一个m×n矩阵：

{\displaystyle \mathbf {J} ={\begin{bmatrix}{\dfrac {\partial \mathbf {f} }{\partial x_{1}}}&\cdots &{\dfrac {\partial \mathbf {f} }{\partial x_{n}}}\end{bmatrix}}={\begin{bmatrix}{\dfrac {\partial f_{1}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{1}}{\partial x_{n}}}\\\vdots &\ddots &\vdots \\{\dfrac {\partial f_{m}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{m}}{\partial x_{n}}}\end{bmatrix}}}

由于矩阵描述了向量空间中的运动——变换，而雅可比矩阵看作是将点 $(x_1,\dots,x_n)$ 转化到点 $(y_1,\dots,y_m)$ ，或者说是从一个n维的欧式空间转换到m维的欧氏空间。

如果m = n，可以定义雅可比矩阵 $\mathbf {J}$ 的行列式，也就是雅可比行列式（Jacobian determinant）。

在微积分换元中，也就是给出了从x到y的n维体积的比率,

\rm dy_1...dy_n=|J| \,\, dx_1...dx_n

二维雅可比矩阵的几何意义

在二维情况（有直观的图），雅可比行列式代表xy平面上的面积微元与uv平面上的面积微元的比值。

设 $x=x(u,v),\quad y=y(u,v)$

雅可比行列式是：

\mathbf J=|\frac{\partial (x,y)}{\partial (u,v)}| = \begin{vmatrix} x_u & x_v \\ y_u & y_v \\ \end{vmatrix}

如图所示：dA代表dx和dy张成的平行四边形的面积，如果du和dv充分接近于0，那么dA：

dA=dxdy=|\frac{\partial (x,y)}{\partial (u,v)}|du dv

二重积分换元：

\iint_D f(x,y) dxdy = \iint_{D'}f[x(u,v),y(u,v)] |\frac{\partial(x,y)}{\partial(u,v)}|dudv

n维度情况以此类推。

多变量高斯分布

首先考虑单变量标准正态分布，概率密度函数为：

f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})\quad\quad\quad(2)

然后考虑 n 维独立标准高斯分布，就是 n 个独立的一维标准正态分布随机变量的联合分布：

p(x_1,\dots,x_n) = p(x_1)\dots p(x_n) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{{x_1}^2+ \dots +{x_n}^2}{2} \right)\quad\quad\quad(3)

为了表达方便，用向量的形式来表示，设 $\mathbf{x} = (x_1\,\dots \,x_n)^T$ ，式（3）写作：

f(\mathbf{x}) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{1}{2}\mathbf{x}^T\mathbf{x} \right)\quad\quad\quad(4)

一般的，设 $\mathbf{y}$ 由 $\mathbf{x}$ 的线性变换得到：

\mathbf{y} = A\mathbf{x} + \mu \quad\quad\quad(5)

其中A是 $n \times n$ 的非奇异矩阵， $\mu$ 是n维向量

可把 $\mathbf{x}$ 用 $\mathbf{y}$ 表示：

\mathbf{x} = A^{-1} (\mathbf{y} - \mu)\quad\quad\quad(6)

注意到，式（6）线性变换的雅可比行列式是 $|\mathbf A^{-1}|$ ，因此：

\rm d \mathbf x = |A^{-1}| d \mathbf y\quad\quad\quad(7)

设 $\Sigma^{-1}=(A^{-1})^T A^{-1}$ ，则 $\displaystyle |A|=|\Sigma|^{\frac{1}{2}}$ ，由联合概率分布密度的定义，有：

\begin{aligned} 1= \int \dots \int f(\mathbf{x}) d \mathbf x &= \int \dots \int f(A^{-1} (\mathbf{y} - \mu)) |\mathbf A^{-1}| d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |A|} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T (A^{-1})^T A^{-1} (\mathbf{y} - \mu) \right] d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y \end{aligned} \quad\quad(10)

因此，向量 $\mathbf y$ 的联合概率概率密度函数是：

f(\mathbf y)=\frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y \quad\quad(11)

也就得到式（1）

可以看出：多变量高斯分布是单变量高斯分布向多维的推广。

weixin_33912445

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
搞懂多变量高斯分布的由来

多变量高斯分布(multivariate Gaussian distribution)的形式如下：其中，是D维 mean vector，是协方差矩阵，里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差，代表协方差矩阵的行列式。二维高斯分布的图如下所示（来自wikipedia），它的每一个维度都是高斯分布：本文主要就是讲式(1)的由来。前置知识：雅可比矩阵和雅可...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。