统计自然语言处理简介

统计自然语言处理简介

                                                                                                                        李亚超    2010-10-28

简介

       语言学家的任务是描述和解释存在我们周围的众多语言现象,比如交谈、写作、以及其他的媒体形式。这就需要一方面确定人类是怎么认知世界、以及怎样获取、产生、理解语言,另一方面要理解语言的结构。对于后者的理解,人们做了很久的工作,构建出一系列的复杂的句法、语言规则,试图来概括所有语言结构,但事实证明,这个设想存在很大的局限性,重要的是能否完全概括所有的语法现象和准确度问题。 几十年过去了,基于规则的方法在自然语言处理上基毫无突破。   Edward Sapir 很早就发现的这个问题,后人总结了他的观点为一为句话“ All grammars leak”.在这里我不知道该怎么翻译,是直接翻译为“所有语法都有泄漏”,还是翻译为“不能概括所有的语法”,于是就直接把原话放在这里。

      我要介绍的是用统计的方法来解决上述问题,又称为统计自然语言理解。在这里,我们不用首先把句子分为合乎语法的和不合语法规则的。我们用到的模型是统计,因此这个方法的理论基础为概率论。这里,我不对概率论做过深的介绍,因为我们的工作重点不在这里。我们的工作是建立语言的概率模型,利用这些模型来解决自然语言问题。


理性主义和经验主义

       一些语言学者和许多自然语言处理工作者的兴趣重点在文字上,没有考虑到语言的心里表征和和语言的书面形式之间的关系。一些人可能会寻找以往的经验是怎么在人脑里建立模型的。这一章简要介绍这个问题中包含的哲学问题。

      

      在1960年到1985年之间,大多数的语言学家、人工智能专家、自然语言处理学者信奉理性注意,他们认为人类大脑里知识的重要组成部分不是由后天获得的,而是由先天遗传的。经验主义者认为,小孩可以通过不断的学习,或者语言的详细结构、语言的模式。这种方法在1920年至1960年占统治地位,不过今年来才重新流行起来。

       以上的观点太难懂,下面用比较通俗的例子来比喻。举例来说,两个人,一个从来没上过学,另一个受过良好的教育,当人了前提是两个人的智力都是正常人。在交流中,他们都能和别人进行日常交流和相互进行交流。她们之间,受过良好教育的,获得了良好的语法、句法知识,因而可以于人进行交流。而,从没有上过学的人,同样可以与人交流。他没有接受过专业的语法、句法学习,但是通过日常于不断学习,根据经验可以判断那些话是对的,那些是话说这是错的。这样的例子不太准确,但是可以从一个方面说明了理性主义和经验主义的差别。


NLP的科学内涵

      

     语言研究工作者要关注什么问题?这是个很重要的问题。在这里我们首先回答两个问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值