《人工智能》之《自然语言理解》

最新推荐文章于 2024-01-03 00:39:26 发布

UestcXiye

最新推荐文章于 2024-01-03 00:39:26 发布

阅读量1.5k

点赞数 1

分类专栏：人工智能文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/ProgramNovice/article/details/110632977

版权

人工智能专栏收录该内容

14 篇文章 21 订阅

订阅专栏

教材：《人工智能及其应用》，蔡自兴等，2016m清华大学出版社（第5版）

参考书：
在这里插入图片描述

1 自然语言理解概述

1.1 什么是自然语言处理？

自然语言处理（Natural Language Processing，NLP）是用计算机通过可计算的方法对自然语言的各级语言单位（字、词、语句、篇章等等）进行转换、传输、存贮、分析等加工处理的理论和方法。
在这里插入图片描述

1.2 自然语言处理的发展历程

在这里插入图片描述

1.3 自然语言处理方法论

机器能够理解人的语言吗？
在这里插入图片描述
自然语言处理的两种主义：理性主义、经验主义。

一种是以基于知识的方法为代表的理性主义方法，该方法以语言学理论为基础，强调语言学家对语言现象的认识，采用非歧义的规则形式描述或解释歧义行为或歧义特性。
一种是以基于语料库的统计分析为基础的经验主义方法，该方法更注重用数学方法，从能代表自然语言规律的大规模真实文本中发现知识，抽取语言现象或统计规律。

在这里插入图片描述

1.4 自然语言理解的研究领域和方向

文字识别(Optical character recognition，OCR)
语音识别(Speech recognition)
机器翻译(Machine translation)
问答系统(Question answering system)
自动文摘(Automatic summarization或automatic abstracting)
信息检索(Information retrieval)
语音合成(Speech synthesis)
自然语言生成(Natural language generation)

1.5 自然语言处理的现状、难点与瓶颈

自然语言处理的现状：

仍然缺乏理论基础
词汇句法方面的问题尚未解决，已开始挑战语义、知识等深层课题
语音识别中采用的统计语言模型推动了NLP的发展，目前的统计模型在向语言深层发展
本体论（知识图谱）受到普遍重视
Bert 、GPT3大数据深度学习取得突破性进展

自然语言处理的难点：

歧义（ambiguity）
病构（ill-formedness）

歧义

在这里插入图片描述

病构

在这里插入图片描述

自然语言处理的瓶颈：
在这里插入图片描述

1.6 语言与语言理解

自然语言是音义结合的词汇和语法体系。词汇是语言的基本单位，它在语法的支配下可构成有意义和可理解的句子，句子再按一定的形式构成篇章等。其结构如下图所示：
在这里插入图片描述
词汇是语言的基本单位。熟语是指一些词的固定组合，如汉语中的成语。词又由词素构成，词素是构成词的最小有意义的单位。如“学生”是由“学”和“生”这两个词素构成的。

语法是语言的组织规律。词法是用词素或熟语构成词的规则，可分为构形法和构词法。构形法是指单数复数等，学生，学生们。造句法是用词和词组构造句子的规则。

1.7 自然语言理解过程的层次

语言虽然表示成一连串的文字符号或者一串声音流，但其内部实际上是一个层次化的结构，从语言的构成中就可以清楚地看到这种层次性。

一个文字表达的句子是由词素→词或词形→词组或句子构成。

一个声音表达的句子则是由音素→音节→音词→音句构成。

其中每个层次都受到语法规则的制约。因此,语言的分析和理解过程也应当是一个层次化的过程。

1.7.1 语音分析

在这里插入图片描述

1.7.2 词法分析

在这里插入图片描述

1.7.3 句法分析

在这里插入图片描述

1.7.4 语义分析

研究如何从一个语句中词的意义，以及这些词在该语句中句法结构中的作用来推导出该语句的意义。
在这里插入图片描述

1.7.5 语用分析

研究在不同上下文中语句的应用，以及上下文对语句理解所产生的影响。从狭隘的语言学观点看，语用学处理的是语言结构中有形式体现的那些语境。
在这里插入图片描述

2 词法分析

在这里插入图片描述

3 句法分析

3.1 短语结构语法

在这里插入图片描述

3.2 乔姆斯基形式语法

在这里插入图片描述

上下文无关文法

上下文无关文法(Context-free Grammars)是乔姆斯基提出的一种对自然语言语法知识进行形式化描述的方法。在这种文法中，语法知识是用重写规则表示的。作为例子，下面给出了一个英语的很小的子集。
在这里插入图片描述
这就是一个英语子集的上下文无关文法。在该文法中，“语句”是一个特殊的非终极符，称为起始符。