1,什么是自然语言处理?
自然语言处理的研究自然语言处理利用计算机为工具,对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工以及书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。但是人用来交际的“语言”跟机器可以“理解”的语言有什么关系呢?机器语言含义具有封闭性,但自然语言则是开放性,具体理解如图1-1所示。
![c5bc909c6aacfae48d40d02b488f24ea.png](https://i-blog.csdnimg.cn/blog_migrate/771b6f165bc04b9f94de9faff034a1aa.png)
图1-1自然语言vs机器语言
2,自然语言处理层次
一个完整的自然语言处理问题的解决是一个层次化的过程,可以更好地体现语言本身的构成,按照处理对象的颗粒度,自然语言处理大致可以分为五个层次,分别是语音分析、词法分析、句法分析、语义分析和语用分析,如图1-2所示。
![d977357fc0866733f540708ae16232d5.png](https://i-blog.csdnimg.cn/blog_migrate/80ffab4f8bbec5621d79ee8bf90b92f3.png)
图1-2 自然语言处理层次
(1) 语音分析
指根据人类的发音规则,以及人们的日常习惯发音,从语音传输数据中区分出一个个独立的音节或者音调,再根据对应的发音规则找出不同音节所对应的词素或词,进而由词到句,识别出人所说的一句话的完整信息,将其转化为文本存储,这也正是现在很火的语音识别的核心,并且语音识别的重要性不亚于计算机视觉。所以语音分析是重中之重。
(2) 词法分析
词法分析的主要任务是找出词汇的各个组成部分,分析这些组成部分之间的关系,进而从中获得语言学的信息。对中文而言,词法分析常常是后续高级任务的基础。在流水线式的系统中,如果词法分析出错,则会波及后续任务。所幸的是,中文词法分析已经比较成熟,基本达到了工业使用的水准。
(3) 句法分析
词分析只是得到零散的词汇信息,计算机不知道语言之间的关系,句法分析是对句子和短语的结构进行分析,目的是要找出词或短语等的相互关系以及各自在句中的作用。
(4) 语义分析
相比较于句法分析,语义分析侧重语义而非语法,即是要找出词的意思,并在词的意义的基础上,拼接出一段完整的话的意思,进而得到完整语篇的含义,从而确定语言所表达的真正含义或概念。
(5) 语用分析
离我们生活最近的层次,但也是相对较难的部分,它是指研究语言所存在的外界环境对语言使用者所产生的影响,例如人在恐慌的条件下所进行表达的方式与平时生活中的表达方式有很大的不同,而这是由环境变化引起的,其本人并没有改变。
3, NLP的判别标准
在人工智能领域或者是语音信息处理领域中,学者们普遍认为采用图灵试验可以判断计算机是否理解了某种自然语言,具体的判别标准有以下几条:
(1)问答:机器人能正确回答输入文本中的有关问题;
(2)文摘生成:机器有能力生成输入文本的摘要;
(3)释义:机器能用不同的词语和句型来复述其输入的文本;
(4)翻译:机器具有把一种语言翻译成另一种语言的能力。