《数学之美》第六章——信息的度量和作用

1 信息熵

一条信息的信息量与其不确定性有着直接的关系。
如何一件事情非常不确定,我们要搞清楚就需要了解大量的信息。如果一件事情了解较多,则只需要少量信息就可以搞清楚。
可以认为,信息量就等于不确定性的多少。

下面举一个例子来解释信息量如何进行度量:
在这里插入图片描述
但是对于冠军球队的猜测其实信息量可能是更少的,因为每支球队的夺冠概率不一样。因此我们可以先在概率高的球队中进行猜测。

香农指出,它的准确信息量应该是:
在这里插入图片描述
其中,p1,p2,…,p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”,一般用符号H表示,单位是比特。

因此,对于任意一个随机变量X,它的熵定义如下:
在这里插入图片描述
变量的不确定性越大,熵就越大,要把它搞清楚,所需信息量也就越大。

2 信息的作用

信息和消除不确定性是相联系的。
信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)。如下图所示:
在这里插入图片描述

一个事物内部会存在不确定性,假定为U,而从外部消除这个不确定性唯一的办法就是引入信息I,即I>U才行。如果I<U,那么只能消除一部分不确定性。反之,如果没有信息,任何公式或者数字的游戏都无法排除不确定性。 知道的信息越多,随机事件的不确定性就越小。

在实际中,我们经常可以利用上下文的信息来预测一个句子中当前的词汇。因此,相关的信息其实也可以用来消除不确定性。这里就引入了条件熵的概念。
假定X和Y是两个随机变量,X是我们需要了解的。那么就知道了X的熵:
在这里插入图片描述
现在假定我们还知道Y的一些情况,包括它和X一起出现的概率,数学上称为联合概率分布P(X,Y)。同时我们还知道条件概率P(X,Y)。这时就可以定义在Y的条件下的条件熵为:
在这里插入图片描述
同时我们可以得到H(X)>=H(X|Y),从而也证明二元模型的不确定性会小于一元模型。
进行推广,我们还可以得到两个条件的条件熵:
在这里插入图片描述
并且可以证明H(X|Y)>=H(X|Y,Z),也就是三元模型会比二元模型好。

那么上述的等号什么时候成立呢?如果引入的信息是无关的信息时,不能减少不确定性,这时等号就是成立的。

3 互信息

上一节中提到,当引入的信息和不确定性有关系时,就能消除不确定性。例子:“今天北京下雨”和“过去24小时北京的空气湿度”,这两个随机变量之间存在多大的相关性。为此,这里引入了“互信息的概念来描述两个随机事件“相关性”的量化度量

假定有两个随机事件X和Y,它们的互信息定义如下:
在这里插入图片描述
互信息其实就是等于消除的不确定性:
在这里插入图片描述
现在就很清晰了,所谓两个事件相关性的度量,就是在了解了其中一个Y的前提下,对消除另一个X不确定性所提供的信息量
互信息的取值是在0到min(H(X),H(Y))之间的函数,当X和Y完全相关时,它的取值是H(X),同时H(X)=H(Y);当二者完全无关时,它的取值为0。

4 延伸阅读:相对熵

相对熵”也叫做“交叉熵”,也可以用来衡量相关性,但是变量的互信息不同 ,它用来衡量 两个取值为正数的函数的相似性。定义如下:
在这里插入图片描述
对于这个公式有以下三个结论:

  1. 对于两个完全相同的函数,它们的相对熵等于零。
  2. 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
  3. 对于概率分布或概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

需要指出的是,相对熵是不对称的,即:
在这里插入图片描述
因此通常会两边取平均:
在这里插入图片描述
相对熵可以用来衡量两段信息的相似程度。例如如果一篇文章是照抄或改写的,那么它的相对熵就比较小,接近于零。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值