多元高斯分布（Multivariate Gaussian Distribution）（详细说明，便于理解）-CSDN博客

本文链接：https://blog.csdn.net/mengjizhiyou/article/details/103933591

在深入了解多元高斯分布前，可以先了解一下一元高斯分布。

接下来对多元高斯分布进行详细的说明与推导。

对于 $D$ 维的向量 $\mathbf{x}=(x_1,...,x_D)^T$ （连续变量），多变量（多元， multivariate Gaussian）高斯分布形式为：

$N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} exp\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\mathbf{\Sigma}^{-1}( \mathbf{x}- \mathbf{\mu})\}$ (式0）

式中的 $\mu$ 是 $D$ 维的均值向量， $\mathbf{\Sigma}$ 是 $D\times D$ 的协方差矩阵（covariance matrix）， $|\mathbf{\Sigma}|$ 是 $\mathbf{\Sigma}$ 的行列式（determinant）。

高斯分布可从多个角度用在不同场景下，如最大化交叉熵分布、多元高斯分布等。高斯分布的另一种情况是当考虑多个随机变量的和时。由中心极限定理（central limit theorem (due to Laplace)）知，在一定的温和条件下（certain mild conditions），一组随机变量的和，当然它本身就是一个随机变量，它的分布随着项数的增加而逐渐趋于高斯分布(Walker, 1969)。

这一点可以考虑N个变量 $x_1,...,x_N$ ，每个变量在[0,1]之间均匀分布，然后考虑均值 $(x_1+...+x_N)/N$ 的分布。对于较大的N，这个分布趋于高斯分布。高斯分布的收敛会随着N的增加而增快，如下图所示：

考虑高斯分布的几何形式。高斯函数对 $\mathbf{x}$ 的函数依赖是通过二次形式实现的（出现在指数中）。

$\Delta ^2=(\mathbf{x}-\mathbf{\mu})^T\mathbf{\Sigma}^{-1}( \mathbf{x}- \mathbf{\mu})$ (式1）

$\Delta$ 是 $\mathbf{\mu}$ 到 $\mathbf{x}$ 马氏距离（Mahalanobis distance），当 $\mathbf{\Sigma}$ 是单位矩阵时 $\Delta$ 变成欧式距离。

在二次方程为常数的 $\mathbf{x}-space$ 中，曲面上的高斯分布是常数。

矩阵 $\mathbf{\Sigma}$ 是对称的，因为任何反对称组分会从指数中消失。协方差矩阵的特征向量方程：

$\mathbf{\Sigma}\mathbf{u}_i=\lambda_i\mathbf{u}_i$

式中， $i=1,....,D$ ， $\lambda_i$ 是特征值（eigenvalues ）， $\mathbf{u}_i$ 是特征向量（eigenvectors）。

因为 $\mathbf{\Sigma}$ 是实数，所以对称的矩阵的特征值也是实数，其特征向量可以被选择来形成一个标准正交集合，即：

$\mathbf{u}_i^T\mathbf{u}_j=I_{ij}$ (式2）, $I_{ij}=\left\{\begin{matrix} 1,i=j\\ 0,otherwise \end{matrix}\right.$

式中 $I_{ij}$ 是单位矩阵（identity matrix）第 $i,j$ 元素。

协方差矩阵 $\mathbf{\Sigma}$ 可以表示为其特征向量的展开式： $\mathbf{\Sigma} =\sum_{i=1}^D \lambda_i\mathbf{u}_i\mathbf{u}_i^T$

则协方差矩阵逆矩阵 $\mathbf{\Sigma}^{-1}$ 可以表示为： $\mathbf{\Sigma}^{-1} =\sum_{i=1}^D \frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^T$ (式3）将式3带入式1得二次方程可以表示为： $\Delta ^{2} =\sum_{i=1}^D \frac{y_i^2}{\lambda_i}$ , $y_i =\mathbf{u}_i^T(\mathbf{x}-\mathbf{\mu})$ (式4）

上式中的 $y_i$ 可以解释为一个新的坐标系，这个坐标系是由标准正交向量 $\mathbf{u}_i$ 定义的，这些向量相对于原始 $\mathbf{x}_i$ 坐标进行了平移和旋转。形成向量 $\mathbf{y}=(y_1,...,y_D)^T$ ，有： $\mathbf{y} = \mathbf{U}(\mathbf{x}-\mathbf{\mu})$

$\mathbf{U}$ 是一个行是 $\mathbf{u}_i^T$ 的矩阵。由式2可知， $\mathbf{U}$ 是一个正交矩阵，其满足 $\mathbf{U}\mathbf{U}^T=\mathbf{I}$ ，同样满足 $\mathbf{U}^T\mathbf{U}=\mathbf{I}$ ， $\mathbf{I}$ 是单位矩阵。

由式4可知，二次式即高斯密度在曲面上式常数，因为式4是常数。

若所有的特征值 $\lambda_i$ 都是正的，则曲面是椭圆形，其中心为 $\mathbf{\mu}$ 且轴与 $\mathbf{u}_i$ 同向，轴在方向上的伸缩因子为 $\lambda_i^{1/2}$ 。

高斯分布定义，协方差矩阵的特征值必须是正的，否则不能形成正确的标准分布。一个特征值都为正的矩阵叫做正定矩阵（positive matrix）。

高斯分布的特征值有一个或多个零时，分布是奇异的（singular）并被限制在一个低纬度的子空间中。若特征值都是非负的，则协方差矩阵是半正定的。

考虑在 $y_i$ 定义的新坐标体系中的高斯分布形式。从 x 坐标系到 y 坐标系，有导数矩阵 J（Jacobian matrix）：

$J_{ij}=\frac{\partial x_i}{\partial y_j}=U_{ji}$

$U_{ji}$ 是矩阵 $\mathbf{U}^T$ 的元素，利用矩阵 $\mathbf{U}$ 的正交性，J 矩阵行列式的平方是：

$|\mathbf{J}|^2=|\mathbf{U}^T|^2=|\mathbf{U}^T||\mathbf{U}|=|\mathbf{U}^T\mathbf{U}|=|\mathbf{I}|=1$

因此 $|\mathbf{J}|=1$ 。协方差矩阵的行列式 $|\mathbf{\Sigma}|$ 可以写为它的特征值的乘积，有：

$|\mathbf{\Sigma}|^{1/2} =\sum_{j=1}^D \lambda_j^{1/2}$

因此，在 $y_j$ 坐标系中，高斯分布为这种形式：

$p(\mathbf{y})=p(\mathbf{x})|\mathbf{J}|=\prod _{j=1}^D\frac{1}{(2\pi\lambda_j)^{1/2}}exp\{-\frac{y_j^2}{2\lambda_j} \}$

上式是D个独立的单变量高斯分布的乘积。因此，特征向量定义了一组新的平移和旋转坐标，联合概率分布将其分解为独立分布的乘积。在 $\mathbf{y}$ 坐标系中分布的积分是：

$\int p(\mathbf{y})d\mathbf{y}=\prod _{j=1}^D\int _{-\infty }^{\infty }\frac{1}{(2\pi\lambda_j)^{1/2}}exp\{-\frac{y_j^2}{2\lambda_j} \}dy_j=1$

这证实了多元高斯函数确实是归一化的。

${\color{Red} \mathbf{x}}$ 在高斯分布下的期望：

$E(\mathbf{x})= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\mathbf{\Sigma}^{-1}( \mathbf{x}- \mathbf{\mu})\}\mathbf{x}d\mathbf{x}$

$= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}(\mathbf{z}+\mu)d\mathbf{z}$

$= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}d\mathbf{z} + \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\} \mu d\mathbf{z}$

$= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}d\mathbf{z} + \mu \int \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\} d\mathbf{z}$

$= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}d\mathbf{z} + \mu \int N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) d\mathbf{x}$

$\mathbf{z}=\mathbf{x}-\mu$ 。第一项中， $exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}$ 是一个奇函数，因为其积分范围是 $(-\infty ,\infty )$ ，所以上式第一项积分为 0。第二项中 $\int N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) d\mathbf{x}=1$ ，因此 $E(\mathbf{x})=\mu$ 。

接下来求 ${\color{Red} \mathbf{x}}$ 在多元高斯分布下的协方差。在一元高斯分布中，用 $E[x^2]$ 求二阶矩，在多元高斯中用 $E[x_ix_j]$ ，在矩阵当中可以写成 $E[\mathbf{x}\mathbf{x}^T]$ ：

$E(\mathbf{x}\mathbf{x}^T)= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\mathbf{\Sigma}^{-1}( \mathbf{x}- \mathbf{\mu})\}\mathbf{x}\mathbf{x}^Td\mathbf{x}$

$= \frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}(\mathbf{z}+\mu)(\mathbf{z}+\mu)^Td\mathbf{z}$

$\mathbf{z}=\mathbf{x}-\mu$ 。因为 $(\mathbf{z}+\mu)(\mathbf{z}+\mu)^T=\mathbf{z}\mathbf{z}^T+\mu \mu^T+\mathbf{z}\mu^T+\mathbf{z}^T\mu$ ，所以可将上式展开，又因为 $exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}$ 是一个奇函数且 $\mu$ 是一个常数，所以有：

$E(\mathbf{x}\mathbf{x}^T)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}\mathbf{z}^Td\mathbf{z} + \mu \mu^T \int N(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) d\mathbf{x}$

对于上式，只需要解式子的第一项即可。

由 $y_i =\mathbf{u}_i^T(\mathbf{x}-\mathbf{\mu})=\mathbf{u}_i^T\mathbf{z}$ 得： $\mathbf{z}=\sum_{j=1}^Dy_j\mathbf{u}_j$

$\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\mathbf{z}\mathbf{z}^Td\mathbf{z}$

$=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}} \int exp\{-\frac{1}{2}\mathbf{z}^T\mathbf{\Sigma}^{-1}\mathbf{z}\}\sum_{i=1}^Dy_i\mathbf{u}_i\sum_{j=1}^Dy_j\mathbf{u}^T_jd\mathbf{z}$

$=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\sum_{i=1}^D \mathbf{u}_i\sum_{j=1}^D \mathbf{u}_j \int exp\{-\sum_{k=1}^D \frac{y_k^2}{2\lambda_k}\}y_iy_j d\mathbf{y}$

$=\sum_{i=1}^D \mathbf{u}_i\mathbf{u}_i^T\lambda_i=\mathbf{\Sigma}$

因此： $E(\mathbf{x}\mathbf{x}^T)=\mu \mu^T+\mathbf{\Sigma}$

$cov[\mathbf{x}]=E[(\mathbf{x}-E[\mathbf{x}])(\mathbf{x}-E[\mathbf{x}])^T]$

$=E[(\mathbf{x}-\mu)(\mathbf{x}-\mu^T)]$

$=E[\mathbf{x}\mathbf{x}^T]-2\mu E[\mathbf{x}]+\mu \mu^T$

$=\mathbf{\Sigma}$

一般对称的协方差矩阵 $\mathbf{\Sigma}$ 有 D(D+1)/2 个独立的参数，向量 $\mu$ 中有D个独立的参数，共有D(D+3)/2（D(D+1)/2+D）个参数。

当D很大时，参数的总数与D成二次增长，因此在计算机中处理和计算大的逆矩阵会受到限制。

解决这个问题的一种方法是使用有限形式的协方差矩阵。假设只考虑协方差矩阵的对角线（diagonal），则 $\mathbf{\Sigma}=\mathrm{diag}(\sigma_i^2)$ ，即协方差矩阵 $\mathbf{\Sigma}$ 有 D 个独立的参数，再加上向量 $\mu$ 中有D个独立的参数，密度模型中一共有2D个独立参数。