自然语言处理的学科定位

 
自然语言处理应该经过以下四个方面:第一、把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能够以一定的数学形式表示出来;二、将这种严密而规整的数学形式表示为算法,使之在计算上形式化;三、根据算法编写计算机程序,使之在计算机上得以实现;四、对实现的系统进行评测、改进质量和性能。在这四个阶段中,第一阶段更大程度上是语言学家和数学家的工作,后面的几个阶段则更属于计算机科学家的工作。不过在任何阶段,工作所需的知识都不是单一的,需要计算机语言、数学、语言学方面的知识。
美国计算机科学家B illManaris认为建立自然语言处理模型需要以下不同层面的知识:1、声学和韵律学;2、音位学;3、形态学;4、词汇学;5、句法学;6、语义学;7、华语分析;8、语用学;9、外部世界的常识性知识。并不是所有的应用都需要所有层面的知识,一些应用可能只需要几个层面的知识。第1、2和第3层面的知识在语音理解系统中可能需要,而在信息检索中则可能不需要。第4、5、6层的知识在信息检索中可能表现得特别重要。
文章认为以上9个层面的知识主要涉及语言学知识,所以自然语言处理原则上是一个语言学的问题。但是这些工作要通过计算机来实现和完成,所以需要符合计算机的理解,需要建立数学模型、进行算法设计和逻辑推理,可能还会应用到心理学等其他学科的知识。除语言学外,可能会应用到的学科知识有:计算机科学;数学;心理学;哲学;逻辑学;统计学;电子工程;生物学等。其中计算机科学是基于数学和逻辑学,生物学则为自然语言处理提供了一个比较好的样参。
自然语言处理的应用有:语音自动识别和合成、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等。而这些可以划分到四个方向:语言学、数据处理、人工智能和认知科学、语言工程。目前在这四个方面中,数据处理和语言工程方向研究火热,尤其数据处理方向。目前大量的应用需求对这两个方向提出了更高的需求,这些应用也大大促进了研究的发展。
细致说来,自然语言处理可以进一步划分为以下方面:口语输入、书面语输入、语言分析和理解、语言生成、口语输出、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法。语言资源、自然语言处理系统的评测等。
自然语言处理的历史表示了这个学科的发展。早期的研究基于图灵算法计算模型的研究和香龙概率及信息论模型的研究。后来提出的计算机理论也来源于图灵的算法计算模型。图灵的工作首先导致了神经元理论,后来导致了有限自动机和正则表达式的研究。香龙将马尔科夫链应用于描述语言的自动机,chomsky在shannon的基础上提出有限状态自动机来刻画语言的语法。
到了20世纪50年代末期到60年代中期,自然语言处理分为两大阵营,符号派和随机派。
符号派也分为两个方面,一个是形式语言理论和生成句法研究、剖析算法研究、自顶向下、自下而上的研究以及动态规划。另一方面则是人工智能方面的研究,他们注重研究推理和逻辑,模式匹配和关键词搜索简单试探方法结合起来进行推理和自动问题。
随机派主要是一些来自统计学专业和电子学专业的研究人员。利用统计学的知识进行分析。统计学方法在语音识别算法中获得成功,这与语音识别的性质有一定的相关。重要的理论有隐马尔可夫模型、噪声信道和解码模型。
80年代后,研究又重新回到了“经验主义”。89年以后,机器翻译开始新纪元,重要标志是基于规则的技术中引入了语料库的方法,包括统计方法、基于实例的方法等。
当前的发展特点是:
一、随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成we自然语言处理的主要战略目标;
二、自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识;
三、越来越多地使用统计数学的方法来分析语言数据。
 
就目前google的机器翻译系统来看,基于统计的方法称为了应用主流。但是不管怎么样,基于统计的方法是不精确的,不能却别开具体的应用场景。所以,应该是逻辑和统计相结合的方法。统计方法作为逻辑方法的补充,或者逻辑方法作为统计方法的补充。但到底如何,我又怎么可能知道呢?
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值