信息熵

一条信息的信息量与其不确定性有着直接的关系。比如说,我们要搞清楚一条非常非常不确定的事,或是我们一无所知的事,就需要了解大量的信息。相反,如果已对某件事了解的比较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量就不确定性的多少。
那么如果量化信息量的度量?来看一个例子。2014年举行了世界杯足球赛,大家都很关心冠军是谁。假如错过了看世界杯,赛后我问一个知道比赛结果的观众,哪只球队是冠军。他没有直接告诉我,而是让我猜,并且我每猜一次,他都要收一块钱才肯告诉我我是否猜对了,那么我要掏多少钱才能知道谁是冠军呢?我可以把球队编号,从1到32,用二分法只需要5次就可以了。所以,谁是冠军这条消息的信息量只值5块钱。
而在现实中,我们使用“比特”(bit)这个概念来度量信息量。一个比特是一个二进制数,在计算机中,一个字节就是8比特。在上面的例子中,这条消息的信息量就是5比特。(2^5=32)
有些读者会发现实际上可能不需要5次就能猜出谁是冠军,因为像西班牙、巴西、德国、意大利这样的球队夺得冠军的可能比日本、韩国等对球队的可能性大很多。因此,第一次猜测时不需要把32支球队等分成两个组,而可以把少数几个强队分成一组,其他球队为另外一组。猜测冠军是否在那几只热门球队中。重复这样的过程,根据夺冠概率对余下候选球队分组,直至找到冠军队。这样也许三次或四次就猜出结果。因此,当每只球队夺冠的可能性(概率)不等时,“冠军”的信息量比5比特少。香农指出,准确信息量应该是
H=-(p1logp1 + p2logp2 + …+p32*logp32)
其中p1,p2…p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”(Entropy),一般用符号H表示,单位是比特。当32支球队夺冠概率相同时,对应的信息熵等于5比特。
变量的不确定性越大,熵也就越大,要把它搞清楚,所需信息量也就越大。信息量的量化度量为什么叫做“熵”这么一个奇怪的名字呢?因为它的定义形式和热力学的熵有很大的相似性。
有了“熵”这个概念,就可以回答本文开始提出的问题,即一本50万字的中文书平均有多少信息量。我们知道,常用的汉字大约有7000字。假如每个字等概率,那么大约需要13比特表示一个汉字。但汉字的使用频率不是均等的。实际上,前10%的汉字占常用文本的95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立概率,那么,每个汉字的信息熵就只有8-9比特左右。如果再考虑上下文,每个汉字的信息熵就只有5比特左右。所以一本50万字的中文书,信息量大约是250万比特。采用较好的算法进行压缩,整本书可以存成一个320KB的文件。如果直接用两字节的国标编码压缩这本书,大约需要1MB左右,是压缩文本的3倍。这两个数量的差距,在信息论中称作“冗余度”(Redundancy)。需要指出的是这里讲的250万比特是个平均数,同样长度的书,所含的信息量可以相差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。大家可能都有这个经验,一本英文书,翻译成汉语,如果字体大小相同,那么中译本一般会薄很多。这和人们普遍的认识——汉语是最简洁的语言是一致的。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值