自然语言处理领域介绍

1.文字语言VS数字信息

      从文字、数字和语言的发展历史可以了解到语言、文字和数字有着内在的联系。数字、文字和自然语言一样,都是信息的载体,他们之间原本有着天然的联系,语言和数学的产生都是未了同一个目的——记录和传播信息。语言发展到一定程度,人类无法记住所有的词汇,高效记录信息的需求催生了文字的产生,不同语言之所以能翻译,因为文字系统在记录信息的能力是等价的。用数字代替文字作为载体,同样可以存储一直的信息,这些正是现代通信的基础。此外,从数字的产生和发展可以感受到“数学是自然的”,因为数学的起源和发展都是人类对自然的认识和生产活动联系在一起,随着人类生活实践的需要而发展起来。

      文字自诞生起就伴随着歧义性,现代自然语言处理研究的这一些问题,寻根溯源,其实我们祖先也曾遇到过,我们在解决问题过程中会自发的遵循法则,探求的研究背后共同的东西,这些就是数学规律。

2.自然语言处理的发展

      在计算机诞生之后,人们开始思索“机器是否能处理自然语言?”,现在这个答案是肯定的,机器不仅能处理自然语言,它的处理方式还和人类的一样,但是值得注意的是:这并不意味着机器必须拥有人类这样的智能等级。自然语言处理经过60多年的发展,在50年代到70年代期间的“电脑模拟人脑”思路成功几乎为零,而70年代后的统计语言模型取得了实质性的进展,这要归功于它所应用的数学统计模型。然而基于规则的自然语言处理与基于统计的自然语言处理的争执却一直持续到90年代,吴军在总结的几点经验很有意思:

1)一种新的研究方法代替成熟的需要很多年时间。

2)从基于统计的方法代替传统的方法,需要等原有的一批语言科学家退休(老科学家,老科学的家,老的科学家),毕竟不是所有人都乐意改变自己的观点,不管对错!

3.自然语言处理大师 贾里尼克(Jelinek)

      吴军在书中提到,他在文章中介绍了一些成功将数学原理应用于自然语言统计领域的大师和学着,不仅单纯是为了讲故事,而是为了给有志于信息研究领域年轻人介绍一批大师和成功者,让大家学习他们的思维方法,从而获得向他们那样的成功。所以,我在这里对这些大师做些简要的概括,包括下文提到的马库斯和他的两位高徒。

      贾里尼克从小出生在一个富有的犹太家庭,二战期间家庭出现变故,失去父亲的贾里尼克随他们母亲移民美国。在美国生活期间,贾里尼克生活十分贫穷,他把很多时间花在打工赚钱补贴家用上,在中学期间的他并没有把很多时间话在学习上。吴军在和贾里尼克聊天时谈到各自中学的教育,他们都认同这些观点:(1)中学期间没必要花很多时间在读书上,而他们在当时的社会经验、生活能力以及那时培养的兴趣和志向将帮助他们一生。(2)学习的内容是可以弥补的,随着大学阶段理解能力的增强,学习的效率会成倍提高,但是值得注意的是:成长确是不可弥补的。贾里尼克的大学生活在麻省理工学院度过,幸运的是在那里他遇到了许多世界级的大神,例如信息论的始祖香农(Shannon)博士和语言学大JakobsondChomsky等,这三位大师对贾里尼克后来从事的研究有着重要影响,也就是利用信息论解决自然语言处理问题。在MIT获得博士学位后,贾里尼克到哈佛任教一年,随后又选择在康奈尔大学,由于一些事情发生让贾里尼克对语言学家深恶痛觉,以至于有这么一句话Every time I fire alinguist, the performance of the speech recognizer goes up”在业界广为流传。

      贾里尼克是一个一辈子闲不下来的人,晚年时他到了霍普金斯大学任教,在这里他创造了一个奇迹:短短三年内就把CLSP1994年在霍普金斯大学成立的语言语音处理实验,Centerfor Language and Speech Processing),变成了世界一流的研究中心。这和他作的几件事情分不开:一是向政府研究部门申请了很多研究经费,二是邀请世界顶级科学家和学生到CLSP,三是他招募了很多有潜力的年轻学者,最后是利用自己影响力把学生送到最好的公司实习,树立声誉。  

      贾里尼克治学极为严谨,对学生的要求也非常严格,但是一旦成为他的学生他会想方设法的为学生的学习和事业提供便利。现在贾里尼克桃李满天下,他的学生分布在世界主要大学和公司的研究生,逐渐形成一个学派,而贾里尼克就是这个学派的精神领袖。吴军在书中提到,贾里尼克对他最大的帮助是提高他在学术上的境界,贾里尼克做最多的事情就是告诉他:什么方法不好。这让吴军在学术上少走了一些弯路,另外贾里尼克考虑问题的方法也让吴军终身受益。不幸的是,在20109月的时候,贾里尼克因心脏病发作过世在办公室里,吴军回忆说,贾里尼克是一个言行一致的人,他说过学习是一辈子的事情,而他确实做到了!

4.自然语言处理教父 马库斯(Marcus)

      将自然处理领域有贡献最大的人有两个,开创性的人物是贾里尼克,而另一位是将其发扬光大的人物——马库斯。马库斯最大的贡献在于他创立了供全世界研究生使用的LDC(Linguistic Data Consortium)语料库,以及他的众多优秀的弟子。吴军在书中做了一个很有意思的比喻:“像许多武侠小说描写的,弟子都成为了各派的掌门,师傅一定了不得”,所以他的影响力很大程度是靠他的弟子传播出去的。虽然马库斯发表的文章不多,但是从他的贡献以角度看,可以称为自然语言处理的教父。

      马库斯也毕业于麻省理工学院,他刚到宾夕法尼亚大学时,利用统计的方法进行句子分析,取得了不少成果,随着研究的深入他察觉到两个问题:(1)研究统计数据明显不足;(2)各国实验数据不统一,结果不利于比较;意识到建立标准语料库的重要性后,马库斯利用自己的影响力主持创建了数百个标准的LDC。

      马库斯管理学生的方式十分宽松,学生研究的课题大部分是自己找的,而不是他指定的,马库斯在学术上有很强的洞察力,能够很快的判断一个方向是否正确,省去了他学生很多无谓的尝试(Try-And-Error)的时间。马库斯在担任宾夕法尼亚大学计算机系主任期间,凭借着自己的远见卓识,把很小计算机系发展成学术界久负盛名的强系,这和他的致力于把院系变强而不是变大的原因分不开的。

      马库斯的学生风格迥异,但都有共同的特点:年轻有为。他的学生中,有崇尚追求完美著称的迈克尔·柯林斯,也有提倡简单才美的艾丽克·布莱尔。吴军眼中的柯林斯是一个把技术潜力挖掘到极致的人,柯林斯在技术上的追求很像乔布斯在产品上的追求很相似,他的博士论文出发点不是验证一个理论,而是做世界最好的分析器!有趣的是,柯林斯的师兄布莱尔想法不同和他的想法不同,布莱尔总是试图寻找简单的不能在简单的方法。如果说柯林斯“务于精纯”的精深专才,那么布莱尔就是“观其大略”的通才。

 

5.《数学之美》作者吴军博士

      吴军毕业于清华大学计算机系(本科)和电子工程系(硕士),并于1993-1996年在清华任讲师。他于1996年起在美国约翰霍普金斯大学攻读博士,并于2002年获得计算机科学博士学位。在清华和约霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年的全国人机语音智能接口会议的最佳论文奖和2000Eurospeech的最佳论文奖。

      吴军博士于2002年加入Google公司,任Google研究院资深研究员。到Google不久,他和三个同事们开创了网络搜索反作弊的研究领域,并因此获得工程奖。2003年,他和两个同事共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google期间,他领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了公司首席执行官埃里克·施密特和创始人谢盖尔·布林的高度评价。

      吴军博士在国内外发表过数十篇论文并获得和申请了近十项美国和国际专利。他于2005年起,当选为霍普金斯大学计算机系董事会董事。2010年,吴军博士离开Google,加盟腾讯,担任负责搜索业务的副总裁,并担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。2012615日,他发出微博暗示已经从腾讯离职。现在他的著作有《数学之美》和《浪潮之巅》。

 



 

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值