详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系

信息量的定义某事件发生的概率小,则该事件的信息量大。 定义随机变量XXX的概率分布为P(X)P(X)P\left( X \right),XXX的信息量为:h(X)=−log2P(X)h(X)=−log2P(X)h\left( X \right) = - {\log _2}P\left( X \right).熵对随机事件按的信息量求期望,得到随机变量XXX的熵: H(X)=−∑...
摘要由CSDN通过智能技术生成

信息量的定义

某事件发生的概率小,则该事件的信息量大。
定义随机变量 X X 的概率分布为 P ( X ) , X X 的信息量为: h ( X ) = log 2 P ( X ) .

对随机事件的信息量求期望,得到随机变量X的熵:
H(X)=xXP(x)logP(x)

当对数底数是2时,单位是bit,当对数底数是e时,单位是nat(奈特)。同时,若P(x)=0,则定义0log0=0。由熵定义可知,随机变量的熵只依赖于X的分布,而与X的取值无关。
熵表示的是随机变量不确定性的度量。熵越大,随机变量的不确定性也就越大。

两点分布的熵

H(X)=xXP(x)logP(x)=plog2p(1p)log2(1p) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) = − p log 2 p − ( 1 − p ) log 2 ( 1 − p )

这时,熵 H(X) H ( X ) 随概率 p p 变化的曲线如下图所示。

p = 0 p=1 p = 1 时,随机变量完全没有不确定性。当 p=0.5 p = 0.5 时, H(X)=1 H ( X ) = 1 ,熵取得最大值,随机变量的不确定性最大。

离散随机变量的最大熵

假设离散随机变量 X X 的概率分布是 P ( X ) ,则其熵是:

H(X)=xXP(x)logP(x) H ( X ) = − ∑ x ∈ X P ( x ) log ⁡ P ( x )

熵满足下列不等式:
0H(X)log|X| 0 ≤ H ( X ) ≤ log ⁡ | X |

其中 |X| | X | X X 的取值个数,当且仅当 X 的分布是均匀分布时右边的等号成立。也就是说,当 X X 服从均匀分布时,熵最大。

给定期望和方差,最大熵的分布形式

正态分布的概率密度函数为:

f ( x ) = 1 2 π σ e ( x μ ) 2 2 σ 2

对数正态分布为:
lnf(x)=ln12πlnσ(xμ)22σ2=αx2+βx+γ ln ⁡ f ( x ) = ln ⁡ 1 2 π − ln ⁡ σ − − ( x − μ ) 2 2 σ 2 = α ⋅ x 2 + β ⋅ x + γ

该分布的对数是关于随机变量 X X 的二次函数。根据计算过程的可逆性,若某对数分布能够写成随机变量二次形式,该分布必然是正态分布。
目标函数为:
arg max P ( x ) H ( X ) = x X P ( x ) log P ( x ) s . t . { E ( X ) = μ V a r ( X ) = σ 2

由约束条件 E(X)
  • 3
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值