多变量高斯分布(multivariate Gaussian distribution)的形式如下:
![\begin{aligned} \Bbb {N}(\mathbf x|\mathbf{\mu},\mathbf \Sigma) &=\frac{1}{(2\pi)^{\frac{d}{2}}\left|\Sigma\right|^\frac{1}{2}} \exp\{{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)} \} \end{aligned} \quad\quad\quad(1)](https://i-blog.csdnimg.cn/blog_migrate/8f1f14d2f4e9ec010425849871a74d15.png)
其中, 是D维 mean vector,
是
协方差矩阵,里面的第 i 行第 j 列元素表示第 i 个变量第 j 个变量的协方差,
代表协方差矩阵的行列式。
二维高斯分布的图如下所示(来自wikipedia),它的每一个维度都是高斯分布:
本文主要就是讲式(1)的由来。
前置知识:雅可比矩阵和雅可比行列式
设 是一个函数,它的输入是向量
,输出是向量
:
![\begin{cases} y_1=f_1(x_1,\dots,x_n) \\ y_2=f_2(x_1,\dots,x_n) \\ \dots \\ y_m=f_n(x_1,\dots,x_n) \end{cases}](https://i-blog.csdnimg.cn/blog_migrate/899104e21b8dabf8828b7c8584660bed.png)
那么雅可比矩阵是一个m×n矩阵:
![{\displaystyle \mathbf {J} ={\begin{bmatrix}{\dfrac {\partial \mathbf {f} }{\partial x_{1}}}&\cdots &{\dfrac {\partial \mathbf {f} }{\partial x_{n}}}\end{bmatrix}}={\begin{bmatrix}{\dfrac {\partial f_{1}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{1}}{\partial x_{n}}}\\\vdots &\ddots &\vdots \\{\dfrac {\partial f_{m}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{m}}{\partial x_{n}}}\end{bmatrix}}}](https://i-blog.csdnimg.cn/blog_migrate/2ab24fcb211462198d60a2e76a9aad51.png)
由于矩阵描述了向量空间中的运动——变换,而雅可比矩阵看作是将点 转化到点
,或者说是从一个n维的欧式空间转换到m维的欧氏空间。
如果m = n, 可以定义雅可比矩阵的行列式,也就是雅可比行列式(Jacobian determinant)。
在微积分换元中,也就是给出了 从x到y的n维体积的比率,
![\rm dy_1...dy_n=|J| \,\, dx_1...dx_n](https://i-blog.csdnimg.cn/blog_migrate/fe016a31d64de491ea32422bf8eab877.png)
二维雅可比矩阵的几何意义
在二维情况(有直观的图),雅可比行列式代表xy平面上的面积微元与uv平面上的面积微元的比值。
设
雅可比行列式是:
![\mathbf J=|\frac{\partial (x,y)}{\partial (u,v)}| = \begin{vmatrix} x_u & x_v \\ y_u & y_v \\ \end{vmatrix}](https://i-blog.csdnimg.cn/blog_migrate/84ed28871b4824452e140efac0b3e783.png)
如图所示:dA代表dx和dy张成的平行四边形的面积,如果du和dv充分接近于0,那么dA:
![dA=dxdy=|\frac{\partial (x,y)}{\partial (u,v)}|du dv](https://i-blog.csdnimg.cn/blog_migrate/4ddc167f33f4fc753a459da2a6e41644.png)
二重积分换元:
![\iint_D f(x,y) dxdy = \iint_{D'}f[x(u,v),y(u,v)] |\frac{\partial(x,y)}{\partial(u,v)}|dudv](https://i-blog.csdnimg.cn/blog_migrate/fcb9198faa40d556f0b04196ed5c3989.png)
n维度情况以此类推。
多变量高斯分布
首先考虑单变量标准正态分布,概率密度函数为:
![f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})\quad\quad\quad(2)](https://i-blog.csdnimg.cn/blog_migrate/a746a1112b2bf735130e2022da812237.png)
然后考虑 n 维独立标准高斯分布,就是 n 个独立的一维标准正态分布随机变量的联合分布:
![p(x_1,\dots,x_n) = p(x_1)\dots p(x_n) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{{x_1}^2+ \dots +{x_n}^2}{2} \right)\quad\quad\quad(3)](https://i-blog.csdnimg.cn/blog_migrate/4b6beee2050dfb3393857896eebf140e.png)
为了表达方便,用向量的形式来表示,设 ,式(3)写作:
![f(\mathbf{x}) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{1}{2}\mathbf{x}^T\mathbf{x} \right)\quad\quad\quad(4)](https://i-blog.csdnimg.cn/blog_migrate/f44b71ea2892079f069d8464bea8dd0a.png)
一般的,设 由
的线性变换得到:
![\mathbf{y} = A\mathbf{x} + \mu \quad\quad\quad(5)](https://i-blog.csdnimg.cn/blog_migrate/eec217a838aed8dbbe7ea0e60a73c647.png%20%3D%20%20A%5Cmathbf%7Bx%7D%20%2B%20%5Cmu%20%5Cquad%5Cquad%5Cquad%285%29)
其中A是 的非奇异矩阵,
是n维向量
可把 用
表示:
![\mathbf{x} = A^{-1} (\mathbf{y} - \mu)\quad\quad\quad(6)](https://i-blog.csdnimg.cn/blog_migrate/13d1a4dc0128dce6b1584b3196da0cf0.png%20%3D%20A%5E%7B-1%7D%20%28%5Cmathbf%7By%7D%20-%20%5Cmu%29%5Cquad%5Cquad%5Cquad%286%29)
注意到,式(6)线性变换的雅可比行列式是 ,因此:
![\rm d \mathbf x = |A^{-1}| d \mathbf y\quad\quad\quad(7)](https://i-blog.csdnimg.cn/blog_migrate/58a7c880a6c9369beefb12ed2e7a4120.png)
设 ,则
,由联合概率分布密度的定义,有:
![\begin{aligned} 1= \int \dots \int f(\mathbf{x}) d \mathbf x &= \int \dots \int f(A^{-1} (\mathbf{y} - \mu)) |\mathbf A^{-1}| d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |A|} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T (A^{-1})^T A^{-1} (\mathbf{y} - \mu) \right] d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y \end{aligned} \quad\quad(10)](https://i-blog.csdnimg.cn/blog_migrate/a2dbc46f07aab981a839c8fb9aa9d8f2.png)
因此,向量 的联合概率概率密度函数是:
![f(\mathbf y)=\frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y \quad\quad(11)](https://i-blog.csdnimg.cn/blog_migrate/e19e821a4b37fcc2446ce51222f12cad.png)
也就得到式(1)
可以看出:多变量高斯分布是单变量高斯分布向多维的推广。