信息熵

最新推荐文章于 2025-03-24 13:50:11 发布

qq_26548003

最新推荐文章于 2025-03-24 13:50:11 发布

阅读量795

点赞数 3

文章标签：信息

原文链接：https://baike.baidu.com/item/数学之美/1580521?fr=aladdin

版权

一条信息的信息量与其不确定性有着直接的关系。比如说，我们要搞清楚一条非常非常不确定的事，或是我们一无所知的事，就需要了解大量的信息。相反，如果已对某件事了解的比较多，则不需要太多的信息就能把它搞清楚。所以，从这个角度来看，可以认为，信息量就不确定性的多少。
那么如果量化信息量的度量？来看一个例子。2014年举行了世界杯足球赛，大家都很关心冠军是谁。假如错过了看世界杯，赛后我问一个知道比赛结果的观众，哪只球队是冠军。他没有直接告诉我，而是让我猜，并且我每猜一次，他都要收一块钱才肯告诉我我是否猜对了，那么我要掏多少钱才能知道谁是冠军呢？我可以把球队编号，从1到32，用二分法只需要5次就可以了。所以，谁是冠军这条消息的信息量只值5块钱。
而在现实中，我们使用“比特”(bit)这个概念来度量信息量。一个比特是一个二进制数，在计算机中，一个字节就是8比特。在上面的例子中，这条消息的信息量就是5比特。（2^5=32）
有些读者会发现实际上可能不需要5次就能猜出谁是冠军，因为像西班牙、巴西、德国、意大利这样的球队夺得冠军的可能比日本、韩国等对球队的可能性大很多。因此，第一次猜测时不需要把32支球队等分成两个组，而可以把少数几个强队分成一组，其他球队为另外一组。猜测冠军是否在那几只热门球队中。重复这样的过程，根据夺冠概率对余下候选球队分组，直至找到冠军队。这样也许三次或四次就猜出结果。因此，当每只球队夺冠的可能性(概率)不等时，“冠军”的信息量比5比特少。香农指出，准确信息量应该是
H=-(p1logp1 + p2logp2 + …+p32*logp32)
其中p1,p2…p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”(Entropy)，一般用符号H表示，单位是比特。当32支球队夺冠概率相同时，对应的信息熵等于5比特。
变量的不确定性越大，熵也就越大，要把它搞清楚，所需信息量也就越大。信息量的量化度量为什么叫做“熵”这么一个奇怪的名字呢？因为它的定义形式和热力学的熵有很大的相似性。
有了“熵”这个概念，就可以回答本文开始提出的问题，即一本50万字的中文书平均有多少信息量。我们知道，常用的汉字大约有7000字。假如每个字等概率，那么大约需要13比特表示一个汉字。但汉字的使用频率不是均等的。实际上，前10%的汉字占常用文本的95%以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立概率，那么，每个汉字的信息熵就只有8-9比特左右。如果再考虑上下文，每个汉字的信息熵就只有5比特左右。所以一本50万字的中文书，信息量大约是250万比特。采用较好的算法进行压缩，整本书可以存成一个320KB的文件。如果直接用两字节的国标编码压缩这本书，大约需要1MB左右，是压缩文本的3倍。这两个数量的差距，在信息论中称作“冗余度”(Redundancy)。需要指出的是这里讲的250万比特是个平均数，同样长度的书，所含的信息量可以相差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。
不同语言的冗余度差别很大，而汉语在所有语言中冗余度是相对小的。大家可能都有这个经验，一本英文书，翻译成汉语，如果字体大小相同，那么中译本一般会薄很多。这和人们普遍的认识——汉语是最简洁的语言是一致的。