07.18
一、自然语言处理涉及的层次
1、形态学
是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征、形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。
2、语法学
研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是,为什么一句话可以这么说,也可以那么说?
3、语义学
是一门研究意义,特别是语言意义的学科。语义学的研究对象是语言的各级单位(词素、词、词组、句子、句子群、整段整篇的话语和文章,乃至整个著作)的意义,以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系,等等。其重点在探明符号与符号所指的对象之间的关系,从而指导人们的语言活动。它所关注的重点是:这个语言单位到底说了什么?
4、语用学
是现代语言学用来指从使用者的角度研究语言,特别是使用者所作的选择,他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。
二、自然语言处理面临的困难
最终需要解决的关键问题就是歧义消解问题和未知语言现象的处理问题。
三、自然语言处理的基本方法
1、理性主义方法
人的很大一部分语言知识是与生俱来的,由遗传决定的。
试图通过假定人的语言能力是与生俱来的,固有的一种本能来回避这些困难的问题。
主张建立符号处理系统,由人工整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序,系统根据规则和程序,将自然语言理解为符号结构-该结构的意义可以从结构中的符号的意义推导出来。按照这种思路,在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析,然后语法分析器根据人设计的语法规则对输入句子进行语法结构分析,最后再根据一套变换规则将语法结构映射到语义符号(如逻辑表达式、语义网络、中间语言等)。
2、经验主义方法
也是假定人脑所具有的一些认知能力开始的。但是经验主义的方法认为人脑并不是从一开始就具有一些具体的处理原则和对具体语言成分的处理方法,而是假定孩子的大脑一开始具有处理联想、模式识别和通用化处理的能力,这些能力能够使孩子充分利用感官输入来掌握具体的自然语言结构。在系统实现方法上,经验主义方法主张通过建立特定的数学模型来学习复杂的,广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。因此,经验主义的自然语言处理方法是建立在统计方法的基础上的,因此,我们又称其为统计自然语言处理方法。