数学之美 系列七 – 信息论在信息处理中的应用

原创 2007年09月28日 16:56:00

数学之美 系列七 -- 信息论在信息处理中的应用



我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。

先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(Fred Jelinek)的人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。

信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差很多,因为后者的复杂度只有 20。

信息论中仅次于熵的另外两个重要的概念是“互信息”(Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。

“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。

当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想出了一个最快也是最好地解决翻译中的二义性,就是上述的方法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们平均要花六年时间。

信息论中另外一个重要的概念是“相对熵”,在有些文献中它被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要用的餐TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。

对信息论有兴趣又有一定数学基础的读者,可以阅读斯坦福大学托马斯.科弗 (Thomas Cover) 教授的专著 "信息论基础"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是当今最权威的信息论专家。 

数学之美系列之七:信息论在信息处理中的应用

 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自...
  • zhz_2V
  • zhz_2V
  • 2007年07月03日 12:35
  • 645

数学之美系列完整版(最新全集列表)

数学之美系列完整版(最新全集列表)作者:吴军, Google 研究员 来源:Google黑板报 数学之美 一 统计语言模型 数学之美 二 谈谈中文分词 数学之美 三 隐含马尔可夫模型...
  • happylife1527
  • happylife1527
  • 2012年10月23日 09:15
  • 911

数学之美——信息的度量

信息有大小吗,如何度量信息的大小?如何度量信息之间的关系? 今天主要讨论的几个问题,它是 信息论 的基础,相信看完这篇文章你会感觉:其实每门学科都有它的神奇之处:) 信息熵在日常生活中,我们应该遇到过...
  • wwh578867817
  • wwh578867817
  • 2016年01月06日 01:46
  • 1293

数学之美 七 信息论在信息处理中的应用

摘要     信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。...
  • chenglansky
  • chenglansky
  • 2015年05月15日 10:25
  • 315

数学之美 第3章 统计语言模型

数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实...
  • lch614730
  • lch614730
  • 2014年03月18日 21:41
  • 1241

信息论的简单应用

转载地址:http://blog.sciencenet.cn/blog-677221-669159.html 我在帖子“大将军数学题2-答案”中,出了一道有关用老鼠检测毒药瓶的附加题:   有1...
  • zhongjishao
  • zhongjishao
  • 2013年04月10日 15:31
  • 1320

数学之美系列9(转帖)

数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(P...
  • luozhuang
  • luozhuang
  • 2007年06月11日 19:38
  • 858

数学之美,美在将复杂问题简化——《数学之美》读后感

我是在读了吴军博士的《浪潮之巅》之后,发现推荐了《数学之美》这本书。我到豆瓣读书上看了看评价,就果断在当当上下单买了一本研读。本来我以为这是一本充满各种数学专业术语的书,读后让我非常震撼的是吴军博士居...
  • kbawyg
  • kbawyg
  • 2012年09月29日 14:34
  • 6973

读书笔记 --《数学之美》_隐马尔可夫模型

《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 ...
  • redaihanyu
  • redaihanyu
  • 2015年12月22日 21:49
  • 639

数学之美12--布隆过滤器(BoomFilter)

布隆过滤器(BoomFilter) 1.原理:           a.解决的问题:                判断一个元素是否在一个集合中             b....
  • xiaopihaierletian
  • xiaopihaierletian
  • 2017年06月13日 10:48
  • 330
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数学之美 系列七 – 信息论在信息处理中的应用
举报原因:
原因补充:

(最多只允许输入30个字)