数学之美 系列四 – 怎样度量信息?

原创 2007年09月28日 16:52:00

数学之美系列 4 -- 怎样度量信息?

发表者:吴军,Google 研究员

前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。

一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。

当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)

有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是

= -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),

其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下:



变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。

不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。

在下一集中, 我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。

对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章
《语信息熵和语言模型的复杂度》 

读书笔记 --《数学之美》_信息的度量和作用

《数学之美⋅\cdot第二版》第六章1、信息熵:信息的度量 对于任一个随机变量XX,它的信息熵定义如下:H(X)=−∑x∈XP(x)logP(x)⋅⋅⋅⋅⋅⋅⋅(公式1.1)H(X)=-∑_{x\i...
  • redaihanyu
  • redaihanyu
  • 2015年12月21日 16:22
  • 829

数学之美——信息的度量

信息有大小吗,如何度量信息的大小?如何度量信息之间的关系? 今天主要讨论的几个问题,它是 信息论 的基础,相信看完这篇文章你会感觉:其实每门学科都有它的神奇之处:) 信息熵在日常生活中,我们应该遇到过...
  • wwh578867817
  • wwh578867817
  • 2016年01月06日 01:46
  • 1295

数学之美系列完整版(最新全集列表)

数学之美系列完整版(最新全集列表)作者:吴军, Google 研究员 来源:Google黑板报 数学之美 一 统计语言模型 数学之美 二 谈谈中文分词 数学之美 三 隐含马尔可夫模型...
  • happylife1527
  • happylife1527
  • 2012年10月23日 09:15
  • 911

《数学之美》中的自然语言处理

1.      信息的冗余是信息安全的保障。 2.      语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。   现在自然语言处理多用统计语言...
  • sinat_35496345
  • sinat_35496345
  • 2017年02月09日 12:30
  • 490

数学之美 第3章 统计语言模型

数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实...
  • lch614730
  • lch614730
  • 2014年03月18日 21:41
  • 1242

数学之美系列9(转帖)

数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(P...
  • luozhuang
  • luozhuang
  • 2007年06月11日 19:38
  • 858

数学之美之信息指纹

读到信息指纹这一章,讲到每个网页链接都生成一个128位的随机数,这样可以方便的存储并且保证不会出现重复的链接。 之后又讲到判定两个集合是否相同,就在这个地方稍微思考了一下,不过对于指纹的原理还不是很清...
  • u013006753
  • u013006753
  • 2015年07月16日 22:10
  • 281

数学之美--信息的度量和作用--信息熵,条件熵和交叉熵

保留初心,砥砺前行 这一章节讲解的是关于信息的某些度量。 我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。……直到1948年,Shannon在他著名的论文“通信的数学原理”中提出了...
  • yinruiyang94
  • yinruiyang94
  • 2017年08月26日 12:29
  • 406

数学之美系列之四:怎样度量信息?

前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多...
  • zhz_2V
  • zhz_2V
  • 2007年07月03日 12:25
  • 540

数学之美,美在将复杂问题简化——《数学之美》读后感

我是在读了吴军博士的《浪潮之巅》之后,发现推荐了《数学之美》这本书。我到豆瓣读书上看了看评价,就果断在当当上下单买了一本研读。本来我以为这是一本充满各种数学专业术语的书,读后让我非常震撼的是吴军博士居...
  • kbawyg
  • kbawyg
  • 2012年09月29日 14:34
  • 6975
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数学之美 系列四 – 怎样度量信息?
举报原因:
原因补充:

(最多只允许输入30个字)