自然语言处理（国科大2021-2022秋季学期课程）-基础概念及算法

最新推荐文章于 2023-01-19 11:07:43 发布

sunzhihao_future

最新推荐文章于 2023-01-19 11:07:43 发布

阅读量3.8k

点赞数 8

分类专栏：机器学习基础知识文章标签：自然语言处理算法人工智能

本文链接：https://blog.csdn.net/sunzhihao_future/article/details/122267531

版权

机器学习基础知识专栏收录该内容

4 篇文章 13 订阅

订阅专栏

自然语言处理-刘洋-国科大2021-2022秋季学期课程

数学基础
- 拉格朗日乘子法
- 熵、相对熵、交叉熵
隐马尔科夫模型
- 马尔科夫模型
- 前向、后向算法：观测状态序列概率计算
- - 前向概率
  - 后向概率
- Viterbi算法：最优隐状态序列计算
支持向量机
- KKT条件
- 松弛变量
神经网络
- 递归神经网络
- 卷积神经网络
- - 多通道卷积
- 注意力神经网络
语言模型
- n-gram
- 数据平滑
词法分析
- 基本概念
- - 组合型歧义与交集型歧义
- 分词与词性标注结果评价方法
- 汉语自动分词基本算法
句法分析
- 短语结构分析
- 依存句法分析
语义分析
- 语义网络
- - 知识图谱
- 词义消歧
- - 有监督的词义消歧方法
  - 基于词典的词义消歧方法
篇章分析
- 话题链与回指
机器翻译
- 统计机器翻译
- 译文评估方法
文本分类、聚类和情感分析
- 互信息与信息增益
- 文本分类
- - 朴素贝叶斯分类方法
文本摘要、信息抽取、问答系统
- 文本摘要
- 信息抽取
- - 命名实体识别
- 问答系统

声明： 部分图片来自于课程讲义，（刘洋，宗成庆）

数学基础

拉格朗日乘子法

在这里插入图片描述

熵、相对熵、交叉熵

在这里插入图片描述

隐马尔科夫模型

马尔科夫模型

前向、后向算法：观测状态序列概率计算

前向概率

在这里插入图片描述

后向概率

在这里插入图片描述

Viterbi算法：最优隐状态序列计算

在这里插入图片描述

支持向量机

KKT条件

在这里插入图片描述
⽀持向量机中的KKT条件：

松弛变量

在这里插入图片描述

神经网络

递归神经网络

在这里插入图片描述
循环神经⽹络的⼀⼤特点是通过参数共享实现参数规模与序列长度的⽆关性，从⽽显著降低了存储要求。

循环神经⽹络的另⼀个特点是串⾏计算。由于输⼊向量、隐藏向量和输出向量在不同位置上存在着严格的依赖关系，必须等待前继向量计算完成，才能够计算后继向量。

卷积神经网络

在这里插入图片描述

多通道卷积

在这里插入图片描述

注意力神经网络

在这里插入图片描述

语言模型

n-gram

在这里插入图片描述

数据平滑

在这里插入图片描述

词法分析

基本概念

在这里插入图片描述

组合型歧义与交集型歧义

在这里插入图片描述

分词与词性标注结果评价方法

在这里插入图片描述

汉语自动分词基本算法

在这里插入图片描述

句法分析

[考试要求] 句法分析这一部分的重点是CFG分析算法、PCFG算法、决策式的(确定性的)依存句法分析方法、依存句法分析器性能评价
在这里插入图片描述

短语结构分析

短语结构分析的基本方法可以分为以下两类：
在这里插入图片描述

线图分析法（Chart Parsing）

在这里插入图片描述

请添加图片描述
在这里插入图片描述

CYK分析算法

[考试要求] 不需要掌握乔姆斯基文法范式化的过程，重点掌握识别矩阵的构造方法
完整的CYK分析算法流程描述如下：1. 首先需要完成对句子的分词以及词性标注；2. 构造识别矩阵；3. 对识别矩阵完成分析过程。

结合例子说明CYK分析算法，给定一个文法G(S)，以及一个待分析的句子The boy hit the dog with a rool
G(S): S $\rightarrow$ NP VP, NP $\rightarrow$ Det N, NP $\rightarrow$ V NP, VP $\rightarrow$ VP PP, PP $\rightarrow$ Prep NP.

对识别矩阵的分析过程即按照从下至上，从左至右的顺序填充识别矩阵，识别矩阵的形状为 $\times N$ 的下三角矩阵，其中 $N$ 为分词后得到的词语的数量，具体过程描述如下：
Step1：将第1层（底层）从左至右填充 $N$ 个词语的词性。
在这里插入图片描述
Step2：填充第2层至第N层，注意记录过程。

需要注意[i,j]表示当前扫描的范围span，并非是矩阵[i,j]位置的元素，其对应关系总结为：j-i+1的值代表了其位于的level，即层数，i表示了其位于当前行的第几个格子。

以X[1,2]为例分析匹配的过程：其只有一种分割方法，X[1,2] $\rightarrow$ Y[1,1] Z[2,2]，根据上述总结的对应关系应该检查图示中的两个位置，符合NP $\rightarrow$ Det N的规则，所以X[1,2]对应的位置应填充NP，如果匹配失败则不填充。
在这里插入图片描述
第2层填充如下：

以X[3,5]为例分析匹配的过程：其有两种分割方法，分别是X[3,5] $\rightarrow$ Y[3,3] Z[4,5]，以及X[3,5] $\rightarrow$ Y[3,4] Z[5,5]，首先检查X[3,5] $\rightarrow$ Y[3,3] Z[4,5]，根据上述总结的对应关系应该检查图示中的两个位置，符合NP $\rightarrow$ Det N的规则，所以X[3,5]对应的位置应填充VP，
在这里插入图片描述
检查X[3,5] $\rightarrow$ Y[3,4] Z[5,5]，根据上述总结的对应关系应该检查图示中的两个位置，匹配失败则不填充。

按照上述过程完成整个识别矩阵的填充
在这里插入图片描述
Step3：最终得到S，则分析成功，否则分析失败。
CYK算法的优点是简单易行，执行效率高；缺点是必须对文法进行范式化处理，并且无法区分歧义。

概率上下文无关文法-PCFG规则

[考试要求] 重点是如何利用滨州树库的语法树，得到PCFG，即参数估计的第一种方法。

CYK规则无法处理歧义，因此引入概率，介绍概率上下文无关文法，PCFG规则。
在这里插入图片描述
PCFG 规则满足上乔姆斯基范式的文法形式，约束规定了从某个左部出发的文法规则的概率要归一。

得到一棵句法分析树后，其概率计算过程如下：
在这里插入图片描述

[考试要求] 重点是第三个问题-参数估计，根据宾州树库语料库估计参数

如果有大量已标注语法结构的训练语料，则可直接通过计算每个语法规则的使用次数，用最大似然估计方法计算 PCFG 规则的概率参数，举例如下：

训练语料为以下两棵标注好的句法树：
在这里插入图片描述

短语结构分析方法评估

在这里插入图片描述

下面的图(a)为句子 “Sales executives were examining the figures with great care yesterday.”的正确分析树(答案标准)，图(b)为系统分析结果。

依存句法分析

在依存语法理论中，“依存”就是指词与词之间支配与被支配的关系，这种关系不是对等的，而是有方向的。处于支配地位的成分称为支配者 (governor, regent, head)，而处于被支配地位的成分称为从属者(modifier, subordinate, dependency)。一个动词所能支配的行动元(名词词组)的个数即为该动词的价数(valence)。也就是说，它能支配几个行动元，它就是几价动词。

依存句法分析(dependency parsing)的任务就是分析出句子中所有词汇之间的依存关系。
在这里插入图片描述

依存语法的4条公理（以及其对应的对依存图和依存树的形式约束）：

一个句子只有一个独立的成分（单一父结点）；
句子的其他成分都从属于某一成分（连通）；
任何一成分都不能依存于两个或多个成分（无环）；
如果成分A直接从属于成分B，而成分C在句子中位于A和B之间，那么，成分C或者从属于A，或者从属于B，或者从属于A和B之间的某一成分（可投射）。

在这里插入图片描述

决策式的(确定性的)分析方法-移进归约算法

[考试要求] 移进归约算法、有可能定义一套新的动作体系，需要掌握：给定分析树以及相应的动作体系，能够恢复其对应的动作序列
在这里插入图片描述

依存句法分析器性能评价

[考试要求] 无标记依存正确率UA、带标记依存正确率LA、依存正确率DA
在这里插入图片描述

短语结构与依存结构的关系

在这里插入图片描述

语义分析

语义网络

在这里插入图片描述

如何在语义网络中表示和区分词的内涵和外延？
可以通过词义消歧区分。

知识图谱

在这里插入图片描述

词义消歧

在这里插入图片描述

有监督的词义消歧方法

基于互信息的消歧方法 (Brown et al., 1991)
基本思想：假设我们有一个双语对齐的平行语料库，以法语和英语为例，通过词语对齐模型每个法语单词可以找到对应的英语单词，一个多义的法语单词在不同的上下文中对应多种不同的英语翻译。

基于贝叶斯分类器的词义消歧方法
基于最大熵的词义消歧方法

基于词典的词义消歧方法

基于语义定义的消歧
基本思想：词典中词条本身的定义作为判断其语义的条件。

基于义类辞典（thesaurus）的消歧
基本思想：多义词的不同义项在使用时往往具有不同的上下文语义类，即通过上下文的语义范畴可以判断多义词的使用义项。

基于双语词典的消歧
基本思想：需要消歧的语言称为第一语言，把需要借助的另一种语言称为第二语言。建立多义词 x 与相关词 y 之间的搭配关系，然后，在第二种语言的语料库中统计对应 x 不同词义的翻译与相关词 y 的翻译同现的次数，同现次数高的搭配对应的义项即为消歧后的词义。

Yarowsky 消歧算法
基本思想：基于词典的词义消歧算法都是分别处理每个出现的歧义词，且对歧义词有两个限制：
1.每篇文本只有一个意义：在任意给定的文本中，目标词的词义具有高度的一致性；
2.每个搭配只有一个意义：目标词和周围词之间的相对距离、词序和句法关系，为目标词的意义提供了很强的一致性的词义消歧线索。

篇章分析

话题链与回指

在这里插入图片描述

机器翻译

统计机器翻译

统计翻译基本原理

噪声信道模型：一种语言T由于经过一个噪声信道而发生变形，从而在信道的另一端呈现为另一种语言S (信道意义上的输出，翻译意义上的源语言)。翻译问题实际上就是如何根据观察到的 S，恢复最为可能的T 问题。这种观点认为，任何一种语言的任何一个句子都有可能是另外一种语言中的某个句子的译文，只是可能有大有小[Brown et. al, 1990]。
在这里插入图片描述

对位模型：

IBM翻译模型

在这里插入图片描述

基于短语的翻译模型

在这里插入图片描述

短语划分模型

在这里插入图片描述

短语翻译模型

使用以下例子说明短语翻译模型：源语言为汉语，目标语言为英语，
源语言：澳洲是与北韩有邦交的少数国家之一。
目标语言：Australia is one of the few countries that have the diplomatic relations with North Korea.
在这里插入图片描述

学习短语翻译规则

双语句对词语对齐：
在这里插入图片描述
使用表格的方式表示上述对齐关系，其中黑色填充的位置表示词语对齐，这样表示的目的是为了方便找到满足对齐一致性的短语对，进而抽取短语翻译规则。

短语翻译规则抽取：

红色方框：“是与北韩” “is - with North Korea”不满足对齐一致性，因此不是一条短语翻译规则；
黄色方框：“的少数国家” “few countries that”满足对齐一致性，因此不是一条短语翻译规则。