【数学之美 系列二十】自然语言处理的教父 马库斯

转载 2007年10月05日 04:21:00
2007年4月13日 下午 07:03:00
发表者:Google 研究员,吴军

我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米 奇 ·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的 论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。

马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找到皮耶尔替代他为止。作为一个管理者,马库斯显示出在自然处理和 计算机科学方面的卓识的远见。在指导博士生时,马库斯发现语料库在自然语言处理中的重要性。马库斯呕心沥血,花了十几年工夫建立了一系列标准的语料库,提 供给全世界的学者使用。这套被称为 LDC 的语料库,是当今全世界自然语言处理的所有学者都使用的工具。我们在以前的系列中讲到,当今的自然语言处理几 乎都是使用给予统计的方法。要做统计,就需要大量有代表性的数据。利用这些数据开发一个自然语言处理系统的过程,可以统称为训练。比如,我们要训练一个汉 语分词系统,我们需要一些已经分好词的中文句子。当然这些句子需要有代表性。如果想知道一个分词系统的准确性,我们也需要一些人工分好词的句子进行测试。 这些人工处理好的文字数据库,成为语料库 (corpus)。如果每个研究室都人工建立几个语料库,不仅浪费时间精力,而且发表文章时,数据没有可比性。 因此,马库斯想到了建立一系列标准的语料库为全世界的学者用。他利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,联络的多所大学和研究机 构,建立的数百个标准的语料库。其中最著名的是 PennTree
Bank 的语料库。PennTree Bank 覆盖多种语言(包括中文)。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标 注,语法分析树等等。LDC 语料库如今已成为全世界自然语言处理科学家共用的数据库。如今,在自然语言处理方面发表论文,几乎都要提供基于 LDC 语 料库的测试结果。

马库斯给予他的博士生研究自己感兴趣的课题的自由,这是他之所以桃李满天下的原因。马库斯对几乎所有的自然语言处理领域有独到的见解。和许多教授让博士生 去做他拿到基金的项目,马库斯让博士生提出自己有兴趣的课题,或者用他已有的经费支持学生,或者为他们的项目区申请经费。马库斯高屋建瓴,能够很快的判断 一个研究方向是否正确,省去了博士生很多 try-and-error 的时间。因此他的学生有些很快地拿到的博士学位。

作为系主任,马库斯在专业设置方面显示出卓识的远见。我有幸和他在同一个校务顾问委员会任职,一起讨论计算机系的研究方向。马库斯在几年前互联网很热门、 很多大学开始互联网研究时,看到 bioinformatics (生物信息学)的重要性,在宾夕法利亚大学设置这个专业,并且在其他大学还没有意识到 时,开始招聘这方面的教授。马库斯还建议一些相关领域的教授,包括后来的系主任皮耶尔把一部分精力转到生物信息学方面。马库斯同时向他担任顾问的其他一些 大学提出同样的建议。等到网络泡沫破裂以后,很多大学的计算机系开始向生物信息学转向,但是发现已经很难找到这些方面好的教授了。我觉得,当今中国的大 学,最需要的就是马库斯这样卓有远见的管理者。

过几天我又要和马库斯一起开顾问委员会的会议了,不知道这次他对计算机科学的发展有什么见解。

来源:http://googlechinablog.com/2007/04/blog-post_13.html  

数学之美(系列二十) 之 自然语言处理的教父 马库斯

数学之美 系列二十 -自然语言处理的教父 马库斯2007年4月13日 下午 07:03:00uT("time117646227894766702");发表者:Google 研究员,吴军 我们在前面的系...
  • pengpengfly
  • pengpengfly
  • 2008年09月27日 09:49
  • 361

数学之美 系列二十 -自然语言处理的教父 马库斯

数学之美 系列二十 -自然语言处理的教父 马库斯 2007...
  • cmu_hua
  • cmu_hua
  • 2007年08月08日 12:31
  • 612

数学之美系列二十:自然语言处理的教父 马库斯

马库斯利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,建立的数百个标准的语料库。其中最著名的是 PennTree Bank 的语料库。PennTree Bank 覆盖多种语言。每一种语言...
  • u010555682
  • u010555682
  • 2014年07月14日 17:52
  • 339

《数学之美》中的自然语言处理

1.      信息的冗余是信息安全的保障。 2.      语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。   现在自然语言处理多用统计语言...
  • sinat_35496345
  • sinat_35496345
  • 2017年02月09日 12:30
  • 488

数学之美系列完整版(最新全集列表)

数学之美系列完整版(最新全集列表)作者:吴军, Google 研究员 来源:Google黑板报 数学之美 一 统计语言模型 数学之美 二 谈谈中文分词 数学之美 三 隐含马尔可夫模型...
  • happylife1527
  • happylife1527
  • 2012年10月23日 09:15
  • 908

数学之美 第2章 自然语言处理-从规则到统计

数学之美 第2章  自然语言处理-从规则到统计 首先我们抛出2个问题: 1. 计算机是否能处理自然语言 2. 如果能,那么它处理自然语言的方法是否和人类一样 -...
  • lch614730
  • lch614730
  • 2014年03月18日 16:45
  • 1221

数学之美 第3章 统计语言模型

数学之美 第3章 统计语言模型 回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实...
  • lch614730
  • lch614730
  • 2014年03月18日 21:41
  • 1241

数学之美系列9(转帖)

数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(P...
  • luozhuang
  • luozhuang
  • 2007年06月11日 19:38
  • 857

数学之美,美在将复杂问题简化——《数学之美》读后感

我是在读了吴军博士的《浪潮之巅》之后,发现推荐了《数学之美》这本书。我到豆瓣读书上看了看评价,就果断在当当上下单买了一本研读。本来我以为这是一本充满各种数学专业术语的书,读后让我非常震撼的是吴军博士居...
  • kbawyg
  • kbawyg
  • 2012年09月29日 14:34
  • 6959

数学之美12--布隆过滤器(BoomFilter)

布隆过滤器(BoomFilter) 1.原理:           a.解决的问题:                判断一个元素是否在一个集合中             b....
  • xiaopihaierletian
  • xiaopihaierletian
  • 2017年06月13日 10:48
  • 328
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【数学之美 系列二十】自然语言处理的教父 马库斯
举报原因:
原因补充:

(最多只允许输入30个字)