高斯分布数学性质及推导（一）：如何证明高斯分布的积分为1

最新推荐文章于 2025-02-21 23:19:52 发布

学习之路，山高水长

最新推荐文章于 2025-02-21 23:19:52 发布

阅读量1w

点赞数 12

文章标签：机器学习人工智能算法线性代数

本文链接：https://blog.csdn.net/Weiwei_xu_g/article/details/104183610

版权

高斯分布是概率统计和机器学习中最常用到的分布之一，在数学上经常被记为 $\mathcal{N}(\mu, \sum)$ ，其中 $\mu$ 为均值， $\sum$ 是协方差矩阵。高维高斯分布的具体形式如下：
$\mathcal{N}(\mu, \sum)=\frac{1}{{(2\pi)}^{\frac{D}{2}}{|\sum|^{\frac{1}{2}}}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)},\ \ \ \ \ \ (1)$ 其中 $D$ 是数据 $\mathbf{x}$ 的维度， $|\sum|$ 是矩阵 $\sum$ 的行列式值。

高维高斯分布的形式比较复杂，那么先从一维的高斯分布开始说起。在一维的情况下， $\mu$ 和 $\sum$ 均为标量。因此，一维的高斯分布也记为:
$\mathcal{N}(\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.\ \ \ \ \ \ (2)$ 首先，我们来证明公式（2）是一个概率分布，也就是 $\mathcal{N}(\mu, \sigma^2)$ 在数轴上的积分要等于1。但是，大家学习微积分的时候应该讲过 $e^{-x^2}$ （公式(2)可以通过变量替换很容易得到这个形式）这类积分是没有解析解的，尝试用分部积分这些方法也无法得到积分结果。因此，我们必须换个角度来看这个问题，寻找一切相关信息来试图得到积分结果。虽然 $e^{-x^2}$ 是没有原函数的，但是 $xe^{-x^2}$ 是有的，找到这个形式就可以来解决这个问题。因此，我们可以这样操作，求 $e^{-(x^2+y^2)}$ 的积分结果，然后利用这个积分与 $e^{x^2}$ 的积分结果之间的关系，得到最终结果。先来利用极坐标变换试图进行 $e^{-(x^2+y^2)}$ 的积分：
$\int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy = \int_0^{2\pi}\int_{0}^{\infty}e^{-r^2}rdrd\theta=\int_0^{2\pi}-\frac{1}{2}e^{-r^2}|_{0}^{\infty}d\theta=\pi.$ 又由于 $\int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy=\int_{-\infty}^{\infty}e^{-x^2}dx\int_{-\infty}^{\infty}e^{-y^2}dy=(\int_{-\infty}^{\infty}e^{-x^2}dx)^2$ , 所以 $\int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi}$ . 下面我们由这个事实来证明 $\mathcal{N}(\mu, \sigma^2)$ 在数轴上积分等于1。
$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy,$ 再次进行变量代换，令 $z=\frac{y}{\sqrt{2}\sigma}$ ,代入上式可得：
$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-z^2}\sqrt{2}\sigma dz=\int_{-\infty}^{\infty}\frac{1}{\sqrt{\pi}}e^{-z^2}dz=1$
数学上的形式变换会带来意想不到的惊喜，寻找对证明、算法设计有益处的变换要靠我们对公式形式的仔细观察。所谓曲径通幽，柳暗花明。世界上唯一不变的是变化，数学推导和证明更是体现了这一点，要求我们要从各个角度考察手头的问题。

为了帮助大家记忆公式(1)，特别是其中的 $\frac{D}{2}$ 的指数，我们来看一个简单的事实：
$\int..\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2+...+(x_D-\mu_D)^2}{2\sigma^2}}dx_1dx_2...dx_D\\=\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2}{2\sigma^2}}\int_{-\infty}^{\infty}e^{-\frac{(x_2-\mu_2)^2}{2\sigma^2}}...\int_{-\infty}^{\infty}e^{-\frac{(x_D-\mu_D)^2}{2\sigma^2}}=\sqrt{2\pi}^D\sigma^D=(2\pi)^\frac{D}{2}({\sigma^2})^{\frac{D}{2}}$ 上式相当于将公式(1)中的协方差矩阵 $\sum$ 设为一个对角阵，且对角线上元素是 $\sigma^2$ 而得到公式（1）中exp函数的指数部分。这个事实也证明了公式(1)在协方差矩阵 $\sum$ 为对角阵的情况下在整个定义域积分为1.

最后，我们还有一个任务，证明公式(1)的最普遍的形式在整个定义域上积分为1，可以做为概率分布使用。为了得到这个结论，首先说明一下，协方差矩阵 $\sum$ 是一个对称正定阵，其逆矩阵必然存在且可进行特征值分解，即： $\sum^{-1}=\mathbf{U}^T\mathbf{\Gamma}\mathbf{U}$ , 其中 $\mathbf{\Gamma}$ 为对角阵，对角线元数为 $\sum^{-1}$ 特征值。 $\mathbf{U}$ 为正交阵，即 $\mathbf{U}^T\mathbf{U}=\mathbf{I}$ 。
$\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)}dx_1..dx_D\underset{\mathbf{y}=\mathbf{x}-\mu}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \sum^{-1}\mathbf{y}}dy_1..dy_D\\=\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \mathbf{U}^T\mathbf{\Gamma}\mathbf{U}\mathbf{y}}dy_1..dy_D\underset{\mathbf{z = Uy}}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{z}^T\mathbf{\Gamma}\mathbf{z}}|U^T|dz_1..dz_D,$ 其中 $\mathbf{U}$ 为正交阵，所以 $|\mathbf{U}|=|\mathbf{U}^T|=1$ ，且 $|\mathbf{\Gamma}| = |\sum^{-1}|=\frac{1}{|\sum|}$ 。设 $\mathbf{\Gamma}$ 的对角线元数为 $\frac{1}{\sigma_1^2},...,\frac{1}{\sigma_D^2}$ , 其中 $\sigma_i$ 为矩阵 $\sum$ 特征值的开方（对称正定阵的特征值大于0，不熟悉的同学请看矩阵分析），上式可转化为：
$\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}((\frac{z_1}{\sigma_1})^2+(\frac{z_2}{\sigma_2})^2+...+(\frac{z_D}{\sigma_D})^2)}dz_1..dz_D=\sqrt{2\pi}\sigma_1\sqrt{2\pi}\sigma_2...\sqrt{2\pi}\sigma_D=(2\pi)^{\frac{D}{2}}|\sum|^{\frac{1}{2}}$
由此，公式(1)的积分为1得证。