【信号处理】(高斯分布)最大熵定理


在所有具有相同方差(即相同平均功率)的概率分布中,高斯分布的熵是最大的。

这个定理的精确表述是:

在所有具有相同方差(即相同的二阶矩,对于零均值分布来说就是相同的平均功率)的概率分布中,高斯分布(正态分布) 具有最大的微分熵。

下面我将详细解释这个定理的含义、重要性以及为什么它成立。

1. 定理的核心含义

  • 约束条件:我们比较的分布必须满足一个硬性约束——方差固定。方差( σ 2 \sigma^2 σ2)衡量的是数据的离散程度,在信号处理中,它代表信号的平均功率。
  • 优化目标:我们要在这些分布中找到那个微分熵 最大的分布。熵是衡量随机变量不确定性的指标。熵越大,意味着随机性越强,包含的信息量越大,或者说其结构是最"不可预测"的。
  • 结论:在方差被固定的前提下,高斯分布是"最随机"、“最不可预测”、"最没有结构"的分布。任何其他具有相同方差的分布,都会因为具有某种特定的结构(例如,偏向某些值、有界等)而导致其不确定性降低,即熵变小。

2. 为什么这个定理如此重要?

这个定理是信息论和许多工程领域的基石。

  • 中心极限定理的"对偶":中心极限定理告诉我们,大量独立随机变量的和趋近于高斯分布。最大熵定理则从另一个角度解释了这个现象:在给定的方差约束下,如果我们对随机变量的分布一无所知(即不做任何其他假设),那么最合理、最不偏不倚的假设就是它是高斯分布,因为这是最"中庸"且不确定性最大的选择。
  • 通信与信号处理:在信道容量(香农公式)的推导中,一个关键步骤是证明在发射功率受限的条件下,使用高斯分布的输入信号可以实现信道容量的上限。这直接应用了最大熵原理。
  • 统计建模与机器学习:当我们对一个自然现象只知道其均值和方差(或协方差)时,使用高斯模型作为先验分布通常是最稳健、最不引入额外偏见的选择。这被称为最大熵原理的应用。

3. 一个直观的理解和简单的证明思路

我们可以通过变分法和拉格朗日乘数法来证明这个定理。

目标:在满足以下三个约束条件下,最大化微分熵 h ( X ) = − ∫ − ∞ ∞ f ( x ) log ⁡ f ( x ) d x h(X) = -\int_{-\infty}^{\infty} f(x) \log f(x) dx h(X)=f(x)logf(x)dx

  1. 概率密度函数积分为1: ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) dx = 1 f(x)dx=1
  2. 均值为0(为简化问题,不失一般性): ∫ − ∞ ∞ x f ( x ) d x = 0 \int_{-\infty}^{\infty} x f(x) dx = 0 xf(x)dx=0
  3. 方差固定为 σ 2 \sigma^2 σ2 ∫ − ∞ ∞ x 2 f ( x ) d x = σ 2 \int_{-\infty}^{\infty} x^2 f(x) dx = \sigma^2 x2f(x)dx=σ2

证明思路

  1. 建立拉格朗日函数 L \mathcal{L} L,将熵函数和三个约束条件结合起来:

    L [ f ] = − ∫ f log ⁡ f d x + λ 1 ( ∫ f d x − 1 ) + λ 2 ∫ x f d x + λ 3 ( ∫ x 2 f d x − σ 2 ) \mathcal{L}[f] = - \int f \log f dx + \lambda_1 \left( \int f dx - 1 \right) + \lambda_2 \int x f dx + \lambda_3 \left( \int x^2 f dx - \sigma^2 \right) L[f]=flogfdx+λ1(fdx1)+λ2xfdx+λ3(x2fdxσ2)

    其中 λ 1 , λ 2 , λ 3 \lambda_1, \lambda_2, \lambda_3 λ1,λ2,λ3 是拉格朗日乘子。

  2. 对函数 f f f 求变分导数,并令其等于零( δ L δ f = 0 \frac{\delta \mathcal{L}}{\delta f} = 0 δfδL=0)。计算结果是:

    − log ⁡ f ( x ) − 1 + λ 1 + λ 2 x + λ 3 x 2 = 0 -\log f(x) - 1 + \lambda_1 + \lambda_2 x + \lambda_3 x^2 = 0 logf(x)1+λ1+λ2x+λ3x2=0

  3. 解出 f ( x ) f(x) f(x)

    f ( x ) = exp ⁡ ( λ 1 − 1 + λ 2 x + λ 3 x 2 ) f(x) = \exp(\lambda_1 - 1 + \lambda_2 x + \lambda_3 x^2) f(x)=exp(λ11+λ2x+λ3x2)

    通过整理常数,这个形式可以写成:

    f ( x ) = A exp ⁡ ( α x + β x 2 ) f(x) = A \exp(\alpha x + \beta x^2) f(x)=Aexp(αx+βx2)

    其中 A , α , β A, \alpha, \beta A,α,β 是常数。

  4. 利用三个约束条件来确定这些常数:

    • 为了保证 f ( x ) f(x) f(x) 是可归一化的概率密度函数,必须有 β < 0 \beta < 0 β<0,我们令 β = − 1 2 σ 2 \beta = -\frac{1}{2\sigma^2} β=2σ21
    • 利用均值为0的约束,可以推出 α = 0 \alpha = 0 α=0
    • 最后利用方差为 σ 2 \sigma^2 σ2 的约束来确定常数 A A A

    最终得到的形式正是高斯分布的概率密度函数:

    f ( x ) = 1 2 π σ 2 exp ⁡ ( − x 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right) f(x)=2πσ2 1exp(2σ2x2)

这就证明了在所有满足方差约束的分布中,能使熵最大化的分布形式只能是高斯分布。

总结

这是信息论的一个核心结论。高斯分布在固定方差的约束下达到了不确定性的上限。这一性质使其在理论推导和工程实践中都具有无可替代的重要地位。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值