最大熵下的概率分布

背景

本文为研究生课程里面的一个作业,题目自选,最后老师也没有让我们提交,所以传上来给大家参考、相互学习,如有疑问请联系850051568@qq.com

题目

已知某随机分布满足的约束条件如下式:
s . t . { x ≥ 0 E ( x ) = 1 μ s.t.\left\{ \begin{aligned} x &\ge 0 \\ E(x)&=\frac{1}{\mu} \end{aligned} \right. s.t.xE(x)0=μ1
求使得熵最大的概率分布。

问题分析

本题要求依据所测量得到的数据及由其构成的约束条件下,按最不确定性,即使熵最大化的原则求取概率分布。求解思路为:根据最大熵发求解概率分布的数学模型采用拉格朗日(Lagrange)乘子法来解析求解,根据KKT条件,可得最优解。

理论介绍

信息熵的物理含义为某一信号不确定性的度量,数学公式为: I ( x i ) = − log ⁡ p ( x i ) I(x_i)=-\log p(x_i) I(xi)=logp(xi).连续随机变量X的熵的物理含义是:某个信源的总体平均不确定性的度,数学公式为: H ( X ) = − ∫ R p ( x ) log ⁡ p ( x ) d x H(X)=-\int_R p(x)\log p(x)dx H(X)=Rp(x)logp(x)dx.

最大熵发求解概率分布的数学模型为:
max ⁡ ( − ∫ S p ( x ) log ⁡ p ( x ) d x ∣  s.t  { − p ( x ) ≤ 0 ∫ S p ( x ) = 1 ∫ S p ( x ) f i ( x ) d x = a i , ( i = 1 , 2 , 3 , … , n ) ) \max \left(-\int_{S} p(x) \log p(x) d x \mid \text { s.t }\left\{\begin{aligned} -p(x) &\leq 0 \\ \int_{S} p(x)&=1 \\ \int_{S} p(x) f_{i}(x) d x&=a_{i},(i=1,2,3, \ldots, n) \end{aligned}\right)\right. maxSp(x)logp(x)dx s.t p(x)Sp(x)Sp(x)fi(x)dx0=1=ai,(i=1,2,3,,n)

代入拉格朗日(Lagrange)乘子法方程,可得式:
L ( p , λ ) = ∫ S p log ⁡ p d x − μ − 1 p + μ 0 ( ∫ S p d x − 1 ) + ∑ j = 1 n λ j ( ∫ S p f j d x − a j ) . L(p, \lambda)=\int_{S} p \log p d x-\mu_{-1} p+\mu_{0}\left(\int_{S} p d x-1\right)+\sum_{j=1}^{n} \lambda_{j}\left(\int_{S} p f_{j} d x-a_{j}\right). L(p,λ)=Splogpdxμ1p+μ0(Spdx1)+j=1nλj(Spfjdxaj).
根据KKT条件对上式求导=0,可得最优解
∂ L ∂ p = ln ⁡ p + 1 − μ − 1 + μ 0 + ∑ j = 1 n λ j f j = 0 \frac{\partial L}{\partial p}=\ln p+1-\mu_{-1}+\mu_{0}+\sum_{j=1}^{n} \lambda_{j} f_{j}=0 pL=lnp+1μ1+μ0+j=1nλjfj=0
进而得:
p = e − 1 + μ − 1 − μ 0 − ∑ j = 1 n λ j f j = C ∗ e − ∑ j = 1 n λ j ∗ f j ( x ) = C ∗ e − λ 1 ∗ f 1 ( x ) − λ 2 f 2 ( x ) − … = p ∗ \begin{aligned} p&=e^{-1+\mu_{-1}-\mu_{0}-\sum_{j=1}^{n} \lambda_{j} f_{j}}\\ &=C^* e^{-\sum_{j=1}^{n} \lambda_{j}^{*} f_{j}(x)}\\ &=C^* e^{-\lambda_{1}^* f_1(x)-\lambda_{2}f_2(x)-\dots}\\ &=p^* \end{aligned} p=e1+μ1μ0j=1nλjfj=Cej=1nλjfj(x)=Ceλ1f1(x)λ2f2(x)=p

题目求解

由最优解标准式和已知约束,可知满足最大熵概率形式为:
p ( x ) = c e − λ 1 f 1 ( x ) − λ 2 f 2 ( x ) − …  s.t.  { x ≥ 0 E ( x ) = 1 μ ⇒ f 1 ( x ) = x f 2 ( x ) = x } ⇒ p ( x ) = { c e − ( λ 1 + λ 2 ) x , x ≥ 0 0 , o t h e r s \left.\begin{array}{l} p(x)=c e^{-\lambda_{1} f_{1}(x)-\lambda_{2} f_{2}(x)-\ldots} \\ \text { s.t. } \left\{\begin{aligned} x &\ge 0 \\ E(x)&=\frac{1}{\mu} \end{aligned} \Rightarrow \begin{aligned} f_{1}(x)&=x \\ f_{2}(x)&=x \end{aligned}\right. \end{array}\right\} \Rightarrow p(x)=\left\{\begin{aligned} c e^{-(\lambda_{1}+\lambda_{2}) x}&,x \ge 0\\ 0&,others \end{aligned}\right. p(x)=ceλ1f1(x)λ2f2(x) s.t. xE(x)0=μ1f1(x)f2(x)=x=xp(x)={ce(λ1+λ2)x0,x0,others
根据概率满足的固有条件和题目所给条件: { ∫ 0 + ∞ p ( x ) d x = 1 ∫ 0 + ∞ x p ( x ) d x = 1 μ \left\{\begin{aligned} \int _0^{+\infty}p(x)dx&=1\\ \int _0^{+\infty}xp(x)dx&=\frac{1}{\mu} \end{aligned}\right. 0+p(x)dx0+xp(x)dx=1=μ1
上述2式联立,得:
{ c ∫ 0 + ∞ e − ( λ 1 + λ 2 ) x d x = 1 c ∫ 0 + ∞ x e − ( λ 1 + λ 2 ) x d x = 1 μ \left\{\begin{aligned} c\int _0^{+\infty}e^{-(\lambda_{1}+\lambda_{2}) x}dx&=1\\ c\int _0^{+\infty}xe^{-(\lambda_{1}+\lambda_{2}) x}dx&=\frac{1}{\mu} \end{aligned}\right. c0+e(λ1+λ2)xdxc0+xe(λ1+λ2)xdx=1=μ1
λ 1 \lambda_{1} λ1+ λ 2 \lambda_{2} λ2视为一个整体, c c c为未知量, μ \mu μ为已知量,2个方程接2个未知量,解得:
{ c = μ λ 1 + λ 2 = μ \left\{\begin{aligned} c&=\mu\\ \lambda_{1}+\lambda_{2}&=\mu \end{aligned}\right. {cλ1+λ2=μ=μ
综上,可得求得的熵最大概率分布为:
p ( x ) = { μ e − μ x , x ≥ 0 0 , o t h e r s p(x)=\left\{\begin{aligned} \mu e^{-\mu x},x \ge 0\\ 0,others \end{aligned}\right. p(x)={μeμx,x00,others,是一个系数为 μ \mu μ的指数分布。

总结

  • 输出信号自变量非负时,输出信号的概率密度函数是指数分布时熵最大。
  • 用拉格朗日乘子法求解有约束的最小化数学模型时,约束、表达式、变量(待求变量)是三要素,缺一不可。
  • (自)信息量用于反映信号的不确定性,当前信号存在的概率越低,其不确定性就越高,所以对应的信息熵就越大。信息量越大,表示先验不确定性和后验不确定性的差值越大。
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MATLAB卡尔曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值