信息熵

首先需要了解一个假设。如何来定义一个信息的信息量的大小,把信息量可以看成是一个事件给人们带来的“惊讶程度”,比如一个很常见的事情发生,就认为这个事件的信息量比较小,而一个很稀有的事件发生了,那么就认为这个事件的信息量比较大。比如:太阳升起这种稀疏平常的事件,我们就认为它没有什么有效信息,约等于不说。而夏天突然天降大雪,这种小概率事件的信息,在定量描述上,我们就认为它具有更高的信息量。

信息量与事件概率的关系:1、信息量h(x)的大小与概率p(x)大小满足递减规律,当概率取1时,信息量的值应该为零,当概率趋近于0时,认为信息量区域无穷大,信息量的值应始终是大于等于零的。2、两个不相关的事件同时发生的的信息量h(x,y)应该等于两个事件单独发生的信息量之和h(x,y)=h(x)+h(y)。所以很自然的一种信息量的描述形式是:h(x) = −log2 p(x)

对于一个随机变量X来说,其平均信息量可以表示为单个概率的信息量关于分布p(X)的期望:

H\left [ x \right ]=-\sum_{x}p(x)\log_{2}p(x)

这就是随机变量的熵。对数的底数是无关紧要的,当以e为底时,熵的单位为nat,当以2为底时,熵的单位是bit。

熵的概念来源于物理学,是描述系统中无序度的一个概念,系统中的原子分子越杂乱无序,则熵越高。在信息学中,也包含类似的含义。一个随机变量的如果是均匀分布,则被认为是比集中取一个或几个值的状态更加‘无序’的状态,分析H(X)也可以知道,当p(X)为均匀分布时,H(x)取得最大值。

 条件熵:

可以得到H(y|x)=H(x,y)-H(x),同时也符合启发式猜想:在x的条件下y的熵等于x,y同时发生的熵减去x发生的熵。

 互信息:

从贝叶斯观点来看,p(x)看成是先验概率,p(x|y)看成是后验概率,那么互信息可以看成是由于知道y的值而造成x的不确定的减少。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值