信息熵和散度

信息熵和散度

信息量

首先给出香农信息量的概念:

信息量需要具有三个性质

  1. 事件出现的概率越大,所包含的信息量越小
  2. 可加性
  3. 不能为负

满足这三个性质的唯一函数

h ( x ) = − l o g 2 p x h(x)=-log_2p_x h(x)=log2px
p x p_x px是事件 x x x发生的概率

熵是所有事件发生的信息量的期望
H ( p ) = − ∑ i p i ∗ l o g 2 p i H(p)=-\sum_ip_i*log_2p_i H(p)=ipilog2pi
熵也可以看作是最小平均编码长度。参考熵和编码长度

交叉熵

按照非真实的分布 q q q来计算事件的信息量,或者说给信息编码。
h ( x ) = − l o g 2 q x h(x)=-log_2q_x h(x)=log2qx
那么计算出来的熵就是
H ( p , q ) = − ∑ i p i ∗ l o g 2 q i H(p,q)=-\sum_ip_i*log_2q_i H(p,q)=ipilog2qi
注意要用真实的分布来计算期望,这代表我们用 q q q分布来编码能得到的真实的最小平均编码长度。

相对熵

又称为KL散度
用交叉熵减去真实的熵,得到相对熵。表示用非真实的分布 q q q给信息编码会比用真实的分布 p p p编码多的编码长度。
D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ i p i ∗ l o g 2 p i q i D(p||q) = H(p,q) - H(p)=\sum_i{p_i}*log_2\frac{p_i}{q_i} D(pq)=H(p,q)H(p)=ipilog2qipi
根据吉布斯不等式可知 H ( p , q ) ≥ H ( p ) H(p,q)\ge H(p) H(p,q)H(p),当 q q q p p p相等时取等号。
相对熵衡量了 q q q p p p两个概率分布的差异性。

##参考
信息熵是什么? - 忆臻的回答 - 知乎
如何通俗的解释交叉熵与相对熵? - Noriko Oshima的回答 - 知乎

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值