Google黑板报上有一个系列《数学之美》非常的不错,到目前为止共有四期,链接分别如下:
http://googlechinablog.com/2006/04/blog-post.html
http://googlechinablog.com/2006/04/blog-post_10.html
http://googlechinablog.com/2006/04/4.html
http://googlechinablog.com/2006/04/blog-post_17.html
其第一期和第三期都是统计语言模型的话题,一是概述,三介绍了HMM,统计语言模型在NLU/NLP中的应用方兴未艾,不再赘述。而二谈到了中文分词,因为有做SegWord的计划,所以也曾经粗略的分析过中文分词的问题,可见于:
http://blog.csdn.net/cs_/archive/2006/02/20/603661.aspx
http://blog.csdn.net/cs_/archive/2006/02/23/607215.aspx
倒是第四期,题目为“怎样度量信息?”,并有一段举例:
那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”?他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。
当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。)
由这个例子引出香农信息伦的确是非常精彩的。但若以此来度量信息(这个世界中的所有信息)、处理自然语言,却是值得商榷的,或者说,不应忘了给予反思。
我们仍从这个例子开始,32个球队,如巴西队、意大利队、德国队等,若想知道谁是冠军,对球队进行编号然后用二分法查找,也就是在这种模型下对检索过程进行编码,码长便可以衡量这个结果的“信息量”。但这是有前提的,也就是说,我们在追问“冠军是谁”的信息量时,我们对这个“信息”已经进行了加工,也就是把球队集合与自然数集进行了映射(作标号),换句话说,这是一种结构化的信息。作为信息检索方向的研究与应用,我们当然更希望深入了解非结构化信息的信息量计算。
回过头来看什么是信息,香农信息论的确第一次给出了形式化的定义,也就是《怎样度量信息》中提到的信息熵计算公式。这个定义的哲学就是,信息量是对不确定性的衡量。一个事件越是确定的,对你而言信息量也就越小,如人总是会死的,明天太阳将从东方升起,这些对人而言,信息熵几乎都是为0的。(因为人对这些信息熵的计算是在一定的模型之上)。
但对于机器而言,一个请求“哪支球队是冠军?”意味着什么?如果它的内部已经有了球队集合的映射,并精确“知道”这个输入的意义是什么,自然其信息量也就是5bit。但若在一个非结构化的信息环境中,比如新闻报道的大规模文档集合中,这个请求的信息量是多少?它意味着什么呢?
首先,对于请求,这个结构表达的是一种疑问信息,需要匹配是冠军的球队,信息的主体是:
球队 是 冠军
-〉球队获得了 冠军称号(冠军杯)
这是一种逻辑结构,“是”结构和“获得了”结构在这种自然语言逻辑的环境中信息量是等价的(等同的),当然还有众多的变体。在这种逻辑结构中,除了谓词,还有一些关键的实体单元,如球队、冠军(称号、杯)等,都是具有意义的。
在大规模的新闻文档中回答这个请求,除了理解其信息结构和意义之外,自然是理解信息源的结构和意义。
这样,我们才能在报道繁杂的文档中,计算出我们所需要的答案。那么,这个过程的信息量是多少?刨除“逻辑结构”这样的模型化名词,我们用一个串去到另一个串中去匹配我们所需要的串,这个过程中信息量应该如何度量?什么又是信息呢?
国内现在对香农信息论有一种批评的声音(可检 索钟义信 教授的全息自然语言理解方向的探索材料),认为它只研究信息传输过程中噪声环境下的处理,并不涉及信息的理解,我觉得一个不容回避的问题是,既然谈到信息,就不能仅仅关注到不确定性的度量,还要关注到意义的度量(这里用了语言哲学方面的提法,而不是语言学的提法:语义,为的是促进反思)。所以《怎样度量信息》中提到“有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。”这个说法及其后文的计算方法,我觉得对于这篇blog所提到的主题和google的使命来讲是值得再思考的。因为信息和信息量的度量,对我们来讲是意义重大的,或许,这远非信息熵所能表达。
仅作继续思考的材料。