统计自然语言处理简介
李亚超 2010-10-28
简介
语言学家的任务是描述和解释存在我们周围的众多语言现象,比如交谈、写作、以及其他的媒体形式。这就需要一方面确定人类是怎么认知世界、以及怎样获取、产生、理解语言,另一方面要理解语言的结构。对于后者的理解,人们做了很久的工作,构建出一系列的复杂的句法、语言规则,试图来概括所有语言结构,但事实证明,这个设想存在很大的局限性,重要的是能否完全概括所有的语法现象和准确度问题。 几十年过去了,基于规则的方法在自然语言处理上基毫无突破。 Edward Sapir 很早就发现的这个问题,后人总结了他的观点为一为句话“ All grammars leak”.在这里我不知道该怎么翻译,是直接翻译为“所有语法都有泄漏”,还是翻译为“不能概括所有的语法”,于是就直接把原话放在这里。
我要介绍的是用统计的方法来解决上述问题,又称为统计自然语言理解。在这里,我们不用首先把句子分为合乎语法的和不合语法规则的。我们用到的模型是统计,因此这个方法的理论基础为概率论。这里,我不对概率论做过深的介绍,因为我们的工作重点不在这里。我们的工作是建立语言的概率模型,利用这些模型来解决自然语言问题。
理性主义和经验主义
一些语言学者和许多自然语言处理工作者的兴趣重点在文字上,没有考虑到语言的心里表征和和语言的书面形式之间的关系。一些人可能会寻找以往的经验是怎么在人脑里建立模型的。这一章简要介绍这个问题中包含的哲学问题。
在1960年到1985年之间,大多数的语言学家、人工智能专家、自然语言处理学者信奉理性注意,他们认为人类大脑里知识的重要组成部分不是由后天获得的,而是由先天遗传的。经验主义者认为,小孩可以通过不断的学习,或者语言的详细结构、语言的模式。这种方法在1920年至1960年占统治地位,不过今年来才重新流行起来。
以上的观点太难懂,下面用比较通俗的例子来比喻。举例来说,两个人,一个从来没上过学,另一个受过良好的教育,当人了前提是两个人的智力都是正常人。在交流中,他们都能和别人进行日常交流和相互进行交流。她们之间,受过良好教育的,获得了良好的语法、句法知识,因而可以于人进行交流。而,从没有上过学的人,同样可以与人交流。他没有接受过专业的语法、句法学习,但是通过日常于不断学习,根据经验可以判断那些话是对的,那些是话说这是错的。这样的例子不太准确,但是可以从一个方面说明了理性主义和经验主义的差别。
NLP的科学内涵
语言研究工作者要关注什么问题?这是个很重要的问题。在这里我们首先回答两个问题。