高斯分布数学性质及推导(一):如何证明高斯分布的积分为1

高斯分布是概率统计和机器学习中最常用到的分布之一,在数学上经常被记为 N ( μ , ∑ ) \mathcal{N}(\mu, \sum) N(μ,),其中 μ \mu μ为均值, ∑ \sum 是协方差矩阵。高维高斯分布的具体形式如下:
N ( μ , ∑ ) = 1 ( 2 π ) D 2 ∣ ∑ ∣ 1 2 e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) ,        ( 1 ) \mathcal{N}(\mu, \sum)=\frac{1}{{(2\pi)}^{\frac{D}{2}}{|\sum|^{\frac{1}{2}}}}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)},\ \ \ \ \ \ (1) N(μ,)=(2π)2D211e21(xμ)T1(xμ),      (1) 其中 D D D是数据 x \mathbf{x} x的维度, ∣ ∑ ∣ |\sum| 是矩阵 ∑ \sum 的行列式值。

高维高斯分布的形式比较复杂,那么先从一维的高斯分布开始说起。在一维的情况下, μ \mu μ ∑ \sum 均为标量。因此,一维的高斯分布也记为:
N ( μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 .        ( 2 ) \mathcal{N}(\mu, \sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.\ \ \ \ \ \ (2) N(μ,σ2)=2π σ1e2σ2(xμ)2.      (2) 首先,我们来证明公式(2)是一个概率分布,也就是 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2)在数轴上的积分要等于1。 但是,大家学习微积分的时候应该讲过 e − x 2 e^{-x^2} ex2(公式(2)可以通过变量替换很容易得到这个形式)这类积分是没有解析解的,尝试用分部积分这些方法也无法得到积分结果。因此,我们必须换个角度来看这个问题,寻找一切相关信息来试图得到积分结果。虽然 e − x 2 e^{-x^2} ex2是没有原函数的,但是 x e − x 2 xe^{-x^2} xex2是有的,找到这个形式就可以来解决这个问题。因此,我们可以这样操作,求 e − ( x 2 + y 2 ) e^{-(x^2+y^2)} e(x2+y2)的积分结果,然后利用这个积分与 e x 2 e^{x^2} ex2的积分结果之间的关系,得到最终结果。先来利用极坐标变换试图进行 e − ( x 2 + y 2 ) e^{-(x^2+y^2)} e(x2+y2)的积分:
∫ ∫ − ∞ ∞ e − ( x 2 + y 2 ) d x d y = ∫ 0 2 π ∫ 0 ∞ e − r 2 r d r d θ = ∫ 0 2 π − 1 2 e − r 2 ∣ 0 ∞ d θ = π . \int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy = \int_0^{2\pi}\int_{0}^{\infty}e^{-r^2}rdrd\theta=\int_0^{2\pi}-\frac{1}{2}e^{-r^2}|_{0}^{\infty}d\theta=\pi. e(x2+y2)dxdy=02π0er2rdrdθ=02π21er20dθ=π. 又由于 ∫ ∫ − ∞ ∞ e − ( x 2 + y 2 ) d x d y = ∫ − ∞ ∞ e − x 2 d x ∫ − ∞ ∞ e − y 2 d y = ( ∫ − ∞ ∞ e − x 2 d x ) 2 \int\int_{-\infty}^{\infty}e^{-(x^2+y^2)}dxdy=\int_{-\infty}^{\infty}e^{-x^2}dx\int_{-\infty}^{\infty}e^{-y^2}dy=(\int_{-\infty}^{\infty}e^{-x^2}dx)^2 e(x2+y2)dxdy=ex2dxey2dy=(ex2dx)2, 所以 ∫ − ∞ ∞ e − x 2 d x = π \int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi} ex2dx=π . 下面我们由这个事实来证明 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2)在数轴上积分等于1。
∫ − ∞ ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 d x = ∫ − ∞ ∞ 1 2 π σ e − y 2 2 σ 2 d y = ∫ − ∞ ∞ 1 2 π σ e − ( y 2 σ ) 2 d y , \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy, 2π σ1e2σ2(xμ)2dx=2π σ1e2σ2y2dy=2π σ1e(2 σy)2dy, 再次进行变量代换,令 z = y 2 σ z=\frac{y}{\sqrt{2}\sigma} z=2 σy,代入上式可得:
∫ − ∞ ∞ 1 2 π σ e − ( y 2 σ ) 2 d y = ∫ − ∞ ∞ 1 2 π σ e − z 2 2 σ d z = ∫ − ∞ ∞ 1 π e − z 2 d z = 1 \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{y}{\sqrt{2}\sigma})^2}dy=\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-z^2}\sqrt{2}\sigma dz=\int_{-\infty}^{\infty}\frac{1}{\sqrt{\pi}}e^{-z^2}dz=1 2π σ1e(2 σy)2dy=2π σ1ez22 σdz=π 1ez2dz=1
数学上的形式变换会带来意想不到的惊喜,寻找对证明、算法设计有益处的变换要靠我们对公式形式的仔细观察。所谓曲径通幽,柳暗花明。世界上唯一不变的是变化,数学推导和证明更是体现了这一点,要求我们要从各个角度考察手头的问题。

为了帮助大家记忆公式(1),特别是其中的 D 2 \frac{D}{2} 2D的指数,我们来看一个简单的事实:
∫ . . ∫ − ∞ ∞ e − ( x 1 − μ 1 ) 2 + . . . + ( x D − μ D ) 2 2 σ 2 d x 1 d x 2 . . . d x D = ∫ − ∞ ∞ e − ( x 1 − μ 1 ) 2 2 σ 2 ∫ − ∞ ∞ e − ( x 2 − μ 2 ) 2 2 σ 2 . . . ∫ − ∞ ∞ e − ( x D − μ D ) 2 2 σ 2 = 2 π D σ D = ( 2 π ) D 2 ( σ 2 ) D 2 \int..\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2+...+(x_D-\mu_D)^2}{2\sigma^2}}dx_1dx_2...dx_D\\=\int_{-\infty}^{\infty}e^{-\frac{(x_1-\mu_1)^2}{2\sigma^2}}\int_{-\infty}^{\infty}e^{-\frac{(x_2-\mu_2)^2}{2\sigma^2}}...\int_{-\infty}^{\infty}e^{-\frac{(x_D-\mu_D)^2}{2\sigma^2}}=\sqrt{2\pi}^D\sigma^D=(2\pi)^\frac{D}{2}({\sigma^2})^{\frac{D}{2}} ..e2σ2(x1μ1)2+...+(xDμD)2dx1dx2...dxD=e2σ2(x1μ1)2e2σ2(x2μ2)2...e2σ2(xDμD)2=2π DσD=(2π)2D(σ2)2D上式相当于将公式(1)中的协方差矩阵 ∑ \sum 设为一个对角阵,且对角线上元素是 σ 2 \sigma^2 σ2而得到公式(1)中exp函数的指数部分。这个事实也证明了公式(1)在协方差矩阵 ∑ \sum 为对角阵的情况下在整个定义域积分为1.

最后,我们还有一个任务,证明公式(1)的最普遍的形式在整个定义域上积分为1,可以做为概率分布使用。为了得到这个结论,首先说明一下,协方差矩阵 ∑ \sum 是一个对称正定阵,其逆矩阵必然存在且可进行特征值分解,即: ∑ − 1 = U T Γ U \sum^{-1}=\mathbf{U}^T\mathbf{\Gamma}\mathbf{U} 1=UTΓU, 其中 Γ \mathbf{\Gamma} Γ为对角阵,对角线元数为 ∑ − 1 \sum^{-1} 1特征值。 U \mathbf{U} U为正交阵,即 U T U = I \mathbf{U}^T\mathbf{U}=\mathbf{I} UTU=I
∫ . . . ∫ − ∞ ∞ e − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) d x 1 . . d x D = y = x − μ ∫ . . . ∫ − ∞ ∞ e − 1 2 y T ∑ − 1 y d y 1 . . d y D = ∫ . . . ∫ − ∞ ∞ e − 1 2 y T U T Γ U y d y 1 . . d y D = z = U y ∫ . . . ∫ − ∞ ∞ e − 1 2 z T Γ z ∣ U T ∣ d z 1 . . d z D , \int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}(\mathbf{x}-\mu)^T \sum^{-1}(\mathbf{x}-\mu)}dx_1..dx_D\underset{\mathbf{y}=\mathbf{x}-\mu}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \sum^{-1}\mathbf{y}}dy_1..dy_D\\=\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{y}^T \mathbf{U}^T\mathbf{\Gamma}\mathbf{U}\mathbf{y}}dy_1..dy_D\underset{\mathbf{z = Uy}}{=}\int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf{z}^T\mathbf{\Gamma}\mathbf{z}}|U^T|dz_1..dz_D, ...e21(xμ)T1(xμ)dx1..dxDy=xμ=...e21yT1ydy1..dyD=...e21yTUTΓUydy1..dyDz=Uy=...e21zTΓzUTdz1..dzD, 其中 U \mathbf{U} U为正交阵,所以 ∣ U ∣ = ∣ U T ∣ = 1 |\mathbf{U}|=|\mathbf{U}^T|=1 U=UT=1,且 ∣ Γ ∣ = ∣ ∑ − 1 ∣ = 1 ∣ ∑ ∣ |\mathbf{\Gamma}| = |\sum^{-1}|=\frac{1}{|\sum|} Γ=1=1。设 Γ \mathbf{\Gamma} Γ的对角线元数为 1 σ 1 2 , . . . , 1 σ D 2 \frac{1}{\sigma_1^2},...,\frac{1}{\sigma_D^2} σ121,...,σD21, 其中 σ i \sigma_i σi为矩阵 ∑ \sum 特征值的开方 (对称正定阵的特征值大于0,不熟悉的同学请看矩阵分析),上式可转化为:
∫ . . . ∫ − ∞ ∞ e − 1 2 ( ( z 1 σ 1 ) 2 + ( z 2 σ 2 ) 2 + . . . + ( z D σ D ) 2 ) d z 1 . . d z D = 2 π σ 1 2 π σ 2 . . . 2 π σ D = ( 2 π ) D 2 ∣ ∑ ∣ 1 2 \int...\int_{-\infty}^{\infty}e^{-\frac{1}{2}((\frac{z_1}{\sigma_1})^2+(\frac{z_2}{\sigma_2})^2+...+(\frac{z_D}{\sigma_D})^2)}dz_1..dz_D=\sqrt{2\pi}\sigma_1\sqrt{2\pi}\sigma_2...\sqrt{2\pi}\sigma_D=(2\pi)^{\frac{D}{2}}|\sum|^{\frac{1}{2}} ...e21((σ1z1)2+(σ2z2)2+...+(σDzD)2)dz1..dzD=2π σ12π σ2...2π σD=(2π)2D21
由此,公式(1)的积分为1得证。

  • 11
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
《复高斯分布数学基础理论.pdf》是一篇讨论复高斯分布数学理论的文章。复高斯分布是复数域上的概率分布,它以圆盘为轮廓,呈现出高斯分布的特征。这篇文章主要介绍了复高斯分布的概率密度函数、期望值和方差等基本概念,并深入探讨了复高斯分布性质和特点。 文章首先介绍了复数域上复高斯分布的定义和表示形式。复高斯分布的概率密度函数有实部和虚部两部分,分别与实数域上的高斯分布相关。通过对复高斯分布的形式推导和函数特性分析,作者详细阐述了复高斯分布的均值、方差和标准差等统计参数的计算方法,以及它们对复高斯分布形状和性质的影响。 接着,文章讨论了复高斯分布性质。复高斯分布具有旋转不变性,即通过复数的旋转变换不会改变分布的形状。作者通过数学推导和实例说明了这一性质的重要性和应用价值。此外,文章还介绍了复高斯分布的边缘分布和条件分布,并解释了它们与复高斯分布之间的联系和转换方法。 最后,文章对复高斯分布进行了应用举例和讨论。作者以通信系统中的正交频分复用为例,说明了复高斯分布在信号传输中的重要性和实际应用。通过对复高斯分布数学理论的探究,读者可以更好地理解和应用复高斯分布,为相关领域的研究和应用提供了有力的数学基础。 总的来说,《复高斯分布数学基础理论.pdf》通过详细介绍复高斯分布的定义、性质和应用,加深了对复高斯分布的理解,并为读者在相关领域的研究和应用提供了巨大的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值