07.C2W2.Part-of-Speech (POS) Tagging and Hidden Markov Models-CSDN博客

本文链接：https://blog.csdn.net/oldmao_2001/article/details/140253593

往期文章请点这里

Overview

●What is part of speech tagging?
●Markov chains
●Hidden Markov models
●Viterbi algorithm
●Example

Part of Speech Tagging

词性标注（Part of Speech Tagging），简称POS Tagging，是自然语言处理（NLP）中的一个任务，它涉及到识别文本中每个单词的词性类别。词性，或称词类，是指一个词在句子中的语法功能，如名词、动词、形容词、副词等。
词性标注对于理解句子结构和语义非常重要，它可以帮助计算机更好地解析语言，从而支持诸如机器翻译、信息检索、文本摘要、情感分析等高级语言处理任务。例如，在句子 “The cat sat on the mat” 中，词性标注可能会标记 “The” 为定冠词（DT），“cat” 为名词（Noun），“sat” 为动词（Verb），“on” 为介词（Preposition），“the” 为定冠词（DT），“mat” 为名词（Noun）。通过这种方式，词性标注为进一步的语言分析提供了基础。
例子：
在这里插入图片描述
关于词性标签缩写可参照：

Lexical Term	Tag	Example Words
Noun	NN	something, nothing
Verb	VB	learn, study
Determiner	DT	the, a
Wh-adverb	WRB	why, where
Adjective	JJ	big, happy
Adverb	RB	quickly, very
Pronoun	PRP	he, she, it
Preposition	IN	on, at, of
Conjunction	CC	and, but, or
Possessive	POS	's, his, her
Article	ART	the, a, an
Numeral	CD	one, two, three
Exclamation	UH	oh, wow
Auxiliary	VBZ	is, are, has
Modal	MD	can, could, will
Comparative	JJR	bigger, faster
Superlative	JJS	biggest, fastest
Gerund	VBG	running, studying
Infinitive	VBN	to run, to study
Participle	VBD	ran, studied
Interjection	INTJ	hello, goodbye

请注意，词性标签的命名可能因不同的词性标注系统而有所不同，但上述表格提供了一些常见的词性标签和示例。
词性标签的应用
在这里插入图片描述
命名实体识别（Named Entity Recognition, NER）:命名实体识别是识别文本中的特定实体，如人名、地点、组织、日期等。词性标注在此过程中非常有用，因为它可以帮助确定实体的边界。例如，如果一个名词（NN）后面跟着一个特定的词性，如地名（例如“New York”），词性标注可以帮助确定这个名词是一个地点实体。

语音识别（Speech Recognition）:语音识别系统将口语转化为文本。词性标注在此过程中有助于提高识别的准确性。由于口语中的语法结构可能不如书面语规范，词性标注可以帮助系统理解句子结构，从而更准确地将口语转化为正确的文本形式。

指代消解（Coreference Resolution）:指代消解是确定文本中不同代词或名词短语指向相同实体的过程。词性标注有助于识别和匹配可能的指代关系。例如，如果一个代词（如“he”）出现在句子中，词性标注可以帮助确定这个代词的性别和数量，进而帮助系统找到它所指的名词短语。上面的图中，“埃菲尔铁塔位于巴黎，它高324米”，这里可以用指代消解推断“它”是指什么。

Markov Chains

在这里插入图片描述
上例中，learn是动词，在英语语法中，动词后面会接什么词性的单词呢？大概率是名词。
这个现象也称为：Part of Speech Dependencies

在这里插入图片描述
这里使用可视化的方式来表示单词序列的词性变换，这个也是马尔科夫链

马尔科夫链可以表示为一个有向图，图中的节点表示模型的状态（state），这里 $Q=\{q_1,q_2,q_3\}$

Markov Chains and POS Tags

POS tags as States

将句子看做是带有相关词性标注的词序列，就可以用马尔科夫链来表示这个序列：
在这里插入图片描述

Transition probabilities

将边加上状态转移（过渡）概率，可得到下图：
在这里插入图片描述
马尔科夫链有一个非常重要的假设或者说性质，就是：下一个事件的概率仅仅取决于当前事件。例如在下图中，下一个词的状态只有当前词learn来决定，而与前面的词无关，只需要看绿色圈圈即可。

The transition matrix

可用矩阵来保存状态转移概率：
在这里插入图片描述
矩阵每一行的和为1，即： $\sum_{j=1}^N a_{ij}=1$

Initial probabilities

对于句子的第一个词，没有前一个状态来决定其状态：
在这里插入图片描述
我们可以引入一个初始概率 $\pi$ 来表示初始单词词性生成概率：

将表格写成矩阵的形式为：
$\begin{bmatrix} 0.4 & 0.1 &0.5\\ 0.2 & 0.2 &0.6\\ 0.4 & 0.3 &0.3\\ 0.2 & 0.3 &0.5 \end{bmatrix}$

Hidden Markov Models

Hidden表示状态是隐藏的，可将词性标签的状态看做是隐藏状态，因为它们从文本数据中不直接可观察到。机器能观察到的只有句子中的单词。我们用虚线节点表示隐藏状态，则其过渡概率可以用N+1乘N维的矩阵A表示，N是隐藏状态的数量。
在这里插入图片描述

Emission probabilities

观测/发射概率指的是在给定一个特定的状态时，观察到某个具体输出（或观察值）的概率。简单来说，它描述了在某个隐藏状态下，某个可见事件（如单词、声音等）发生的可能性。例如这里在隐藏状态VB的状态下，生成一些词（观测值）的概率如下图所示：
在这里插入图片描述
右边是观测/发射概率的表格形式，观测/发射矩阵表示词性标签代表的每个最终隐藏状态到语料库中的M个单词的转换概率。
同样的，每一行的概率和为1，即： $\sum_{j=1}^V b_{ij}=1$
注意，图示中三个词在不同隐藏状态下的生成概率都大于0，是因为词在不同上下文中可能会有不同的词性。
He lay on his back.
I’ll be back.
第一句back是名词，第二句是副词。

Summary

States:
$\{q_1, \cdots, q_N\}$
Transition matrix:
$A=\begin{bmatrix} a_{1,1} & \cdots & a_{1,N} \\ \vdots & \ddots & \vdots \\ a_{N+1,1} & \cdots & a_{N+1,N} \\ \end{bmatrix}$
Emission matrix:
$B=\begin{bmatrix} b_{1,1} & \cdots & b_{1V} \\ \vdots & \ddots & \vdots \\ b_{N1} & \cdots & a_{NV} \\ \end{bmatrix}$

Calculating Probabilities

Transition probabilities

根据实例计算转移概率，假设语料库如下：
在这里插入图片描述
我们用颜色来表示不同的词性标签，从词库中可以统计得到，例如蓝色到紫色出现了两次，语料库中以蓝色开头的标签数量是3：

transition probability:

要计算马尔科夫模型的所有转移概率，必须统计语料库中所有标签对出现次数。
1.计算相邻词性标签共现次数
$C(t_{i-1},t_i)$
2.再除以前一个词出现的总次数得到转移概率
$P(t_i | t_{i-1}) = \frac{C(t_{i-1}, t_i)}{\sum_{j=1}^{N} C(t_{i-1}, t_j)}$

The corpus

假设有以下语料库：
In a Station of the Metro
The apparition of these faces in the crowd :
Petals on a wet , black bough .
语料库中每一行是一个单独的句子。先在句首添加起始标记，以便计算初始概率：
在这里插入图片描述

然后将所有字母转成小写字母，这里没有去掉标点，因为是一个toy model
在这里插入图片描述

Populating the Transition Matrix

先准备好空表：
在这里插入图片描述
先用与相关标记的计数来填充矩阵的第一列（矩阵的行代表当前状态，列代表下一个状态，值代表从当前状态转移到下一个状态的转移概率），先用不同颜色来标记状态：

对于第一列，需要计算下面标记组合出现的次数

在这里插入图片描述
得到以下结果：

按这个方式可以填充其他部分，这里有一个trick，注意到语料库中没有动词VB，所以，矩阵中VB所在的行列均为0：

最后结果如下（这里O-O，在语料中出现了八次，注意最后一句加上标点，有4次）：
在这里插入图片描述
接下来计算转移概率：

但是VB这行会出现分母为0的情况。

Smoothing

为解决这个问题，需要加上一个很小的值 $\epsilon$ ，最后公式变成：
$P(t_i | t_{i-1}) = \frac{C(t_{i-1}, t_i)+\epsilon}{\sum_{j=1}^{N} C(t_{i-1}, t_j)+N\times \epsilon}$
分母加上一项，以保证概率总和为1
在这里插入图片描述
这里如果用 $\epsilon=0.001$ ，这转移矩阵就得到：

平滑之后没有为0的概率，VB的转移概率是相等的。
实际操作中，第一行不需要加 $\epsilon$ ，加上会使得标点符号也会有概率出现在句首，这个是不科学的。

Populating the Emission Matrix

上面的转移矩阵只考虑了词性的转化，这里需要将具体的词也考虑进来，例如：
在这里插入图片描述
我们希望计算一个词性标签与特定词语的共现次数，例如：

在这里插入图片描述
进一步用复杂一点例子：

以第一列为例，这里不是计算标签对的数量，而是计算一个词与特定标签相关联的次数：

例如 $C (NN, in) = 0$ 表示在语料库中in与Noun标签并无关联，同理in与动词也无关系，在其他标签类别中出现了两次：
在这里插入图片描述
最后的概率由以下公式计算：
$P(w_i | t_i) = \frac{C(t_i, w_i) + \epsilon}{\sum_{j=1}^{N} C(t_i, w_j) + N \cdot \epsilon}\\ =\cfrac{C(t_i, w_i) + \epsilon}{C(t_i)+ N \cdot \epsilon}$
其中，大与字母N代表标签数，大写字母V代表我们的词汇表大小。

The Viterbi Algorithm

Viterbi algorithm - a graph algorithm

维特比算法是一个图算法，下面以句子：I love to learn为例，来演示其原理。在这里插入图片描述

这里绿色显示的转移概率是0.3，橙色显示的观测/发射概率为0.5
在这里插入图片描述
那么第一个单词为I的概率实际是联合概率：0.5×0.3=0.15

接下来观察到love有两种可能，分别是O→NN和O→VB
由于VB对应生成love的发射概率要大，因此选择O→VB：

这I后面接love的概率为：0.5×0.5=0.25

由于love后面的to只会在O状态下出现：
在这里插入图片描述
love后面接to的概率为：0.2×0.4=0.08
最后是learn，只会在VB状态出现：

其出现概率是0.5×0.2=0.1

最后可得到所有单词序列对应的隐藏状态概率为：
$0.15 * 0.25 * 0.08 * 0.1 = 0.0003$

Viterbi algorithm Steps

一共三步：
1.Initialization step
2.Forward pass
3.Backward pass

这里要用到两个辅助矩阵：
在这里插入图片描述
矩阵C保存中间的最优概率，矩阵D保存访问过的状态的索引。
下面详细讲解三个步骤。

Viterbi: Initialization

初始化步骤是填充辅助矩阵C和D第一列的：
在这里插入图片描述
填充结果为：

填充公式为：
$c_{i,1}=\pi_i*b_{i,cindex(w_1)}\\ =a_{1,i}*b_{i,cindex(w_1)}$
C矩阵中的第一列表示从图中的起始状态 $\pi$ 到第一个标签 $t_i$ 和单词 $w_1$ 的转换概率，示例图中有三个隐藏状态。
从公式中可以看到，第一列单词 $w_1$ 出现的概率是初始化概率乘以状态观测/发射概率，初始化概率从矩阵A中可以得到，观测/发射概率从矩阵B中可以得到。
对于矩阵D：
在这里插入图片描述
第一列直接设置为0即可：
$d_{i,1}=0$
因为没有遍历任何之前的词性标签。

Viterbi: Forward Pass

前向传递是填充矩阵C和D的第二步。
在这里插入图片描述
对于矩阵C，使用的公式为：
$c_{i,j}=\underset{k}{\max}c_{k,j-1}*a_{k,i}*b_{i,cindex(w_j)}$
例如要计算 $c_{1,2}$

$c_{1,2}=\underset{k}{\max}c_{k,1}*a_{k,1}*b_{1,cindex(w_2)}$
$b_{1,cindex(w_2)}$ 是状态 $t_1$ 调节下生成单词 $w_2$ 的观测/发射概率
$a_{k,1}$ 是状态 $t_k$ 到当前状态 $t_1$ 的转移概率
$t_{k1}$ 表示已经遍历的前一个路径的概率
这里选择k使得整个公式最大化
在这里插入图片描述
对于矩阵D：

使用以下公式：
$d_{i,j}=\underset{k}{\argmax}c_{k,j-1}*a_{k,i}*b_{i,cindex(w_j)}$

Viterbi: Backward Pass

到这一步，C和D已经填充完毕
现在需要从D中提取路径，它代表了最可能生成我们给定的词序列的隐藏状态的序列（从第一个到第K个）
首先，在矩阵C的最后一列中计算具有最高概率的条目 $c_{i,K}$ 的系引。这个索引处的概率是最可能的隐藏状态序列生成给定词序列的概率。
$s=\underset{i}{\argmax}c_{i,K}$
在这里插入图片描述
例如：这里最高概率的条目是第一个，概率为0.01，也就是对应的 $c_{1,5}$
这个索引表示你观察到单词 $w_5$ 时遍历的最后一个隐藏状态。也就是生成 $w_5$ 最有可能状态是 $t_1$ 词性标签，将 $t_1$ 加到序列的最后：
在这里插入图片描述
然后根据D中的值查找矩阵D中的下一个索引：

在这里插入图片描述

Implementation notes

1.In Python index starts with 0!
2.Use log probabilities，防止概率值太小相乘导致下溢
$c_{i,j}=\underset{k}{\max}c_{k,j-1}*a_{k,i}*b_{i,cindex(w_j)}$
取log后：
$\log c_{i,j}=\underset{k}{\max}\log( c_{k,j-1})+\log( a_{k,i})+\log (b_{i,cindex(w_j)})$