昇思25天学习打卡营第25天|LSTM+CRF序列标注

ronlym

于 2024-07-31 16:48:15 发布

阅读量868

点赞数 23

文章标签：学习 lstm 人工智能

本文链接：https://blog.csdn.net/ronlym/article/details/140826914

版权

概述

序列标注指给定输入序列，给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取，包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。以命名实体识别为例：

输入序列	清	华	大	学	座	落	于	首	都	北	京
输出标注	B	I	I	I	O	O	O	O	O	B	I

如上表所示，清华大学 和 北京是地名，需要将其识别，我们对每个输入的单词预测其标签，最后根据标签来识别实体。

这里使用了一种常见的命名实体识别的标注方法——“BIOE”标注，将一个实体(Entity)的开头标注为B，其他部分标注为I，非实体标注为O。

条件随机场(Conditional Random Field, CRF)

从上文的举例可以看到，对序列进行标注，实际上是对序列中每个Token进行标签预测，可以直接视作简单的多分类问题。但是序列标注不仅仅需要对单个Token进行分类预测，同时相邻Token直接有关联关系。以清华大学一词为例:

输入序列	清	华	大	学
输出标注	B	I	I	I	√
输出标注	O	I	I	I	×

如上表所示，正确的实体中包含的4个Token有依赖关系，I前必须是B或I，而错误输出结果将清字标注为O，违背了这一依赖。将命名实体识别视为多分类问题，则每个词的预测概率都是独立的，易产生类似的问题，因此需要引入一种能够学习到此种关联关系的算法来保证预测结果的正确性。而条件随机场是适合此类场景的一种概率图模型。下面对条件随机场的定义和参数化形式进行简析。

考虑到序列标注问题的线性序列特点，本节所述的条件随机场特指线性链条件随机场(Linear Chain CRF)

设 $x=\{x_0, ..., x_n\}$ 为输入序列， $y=\{y_0, ..., y_n\}，y \in Y$ 为输出的标注序列，其中 $n$ 为序列的最大长度， $Y$ 表示 $x$ 对应的所有可能的输出序列集合。则输出序列 $y$ 的概率为：

$\begin{align}P(y|x) = \frac{\exp{(\text{Score}(x, y)})}{\sum_{y' \in Y} \exp{(\text{Score}(x, y')})} \qquad (1)\end{align}$

设 $x_i$ , $y_i$ 为序列的第 $i$ 个Token和对应的标签，则 $\text{Score}$ 需要能够在计算 $x_i$ 和 $y_i$ 的映射的同时，捕获相邻标签 $y_{i-1}$ 和 $y_{i}$ 之间的关系，因此我们定义两个概率函数：

发射概率函数 $\psi_\text{EMIT}$ ：表示 $x_i \rightarrow y_i$ 的概率。
转移概率函数 $\psi_\text{TRANS}$ ：表示 $y_{i-1} \rightarrow y_i$ 的概率。

则可以得到 $\text{Score}$ 的计算公式：

$\begin{align}\text{Score}(x,y) = \sum_i \log \psi_\text{EMIT}(x_i \rightarrow y_i) + \log \psi_\text{TRANS}(y_{i-1} \rightarrow y_i) \qquad (2)\end{align}$

设标签集合为 $T$ ，构造大小为 $∣ T ∣ x ∣ T ∣$ 的矩阵 $\textbf{P}$ ，用于存储标签间的转移概率；由编码层(可以为Dense、LSTM等)输出的隐状态 $h$ 可以直接视作发射概率，此时 $\text{Score}$ 的计算公式可以转化为：

$\begin{align}\text{Score}(x,y) = \sum_i h_i[y_i] + \textbf{P}_{y_{i-1}, y_{i}} \qquad (3)\end{align}$

接下来我们根据上述公式，使用MindSpore来实现CRF的参数化形式。首先实现CRF层的前向训练部分，将CRF和损失函数做合并，选择分类问题常用的负对数似然函数(Negative Log Likelihood, NLL)，则有：

$\begin{align}\text{Loss} = -log(P(y|x)) \qquad (4)\end{align}$

由公式 $(1)$ 可得，

$\begin{align}\text{Loss} = -log(\frac{\exp{(\text{Score}(x, y)})}{\sum_{y' \in Y} \exp{(\text{Score}(x, y')})}) \qquad (5)\end{align}$

$\begin{align}= log(\sum_{y' \in Y} \exp{(\text{Score}(x, y')}) - \text{Score}(x, y) \end{align}$

根据公式 $(5)$ ，我们称被减数为Normalizer，减数为Score，分别实现后相减得到最终Loss。

Normalizer计算

根据公式 $(5)$ ，Normalizer是 $x$ 对应的所有可能的输出序列的Score的对数指数和(Log-Sum-Exp)。此时如果按穷举法进行计算，则需要将每个可能的输出序列Score都计算一遍，共有 $T|^{n}$ 个结果。这里我们采用动态规划算法，通过复用计算结果来提高效率。

假设需要计算从第 $0$ 至第 $i$ 个Token所有可能的输出序列得分 $\text{Score}_{i}$ ，则可以先计算出从第 $0$ 至第 $i - 1$ 个Token所有可能的输出序列得分 $\text{Score}_{i-1}$ 。因此，Normalizer可以改写为以下形式：

$log(\sum_{y'_{0,i} \in Y} \exp{(\text{Score}_i})) = log(\sum_{y'_{0,i-1} \in Y} \exp{(\text{Score}_{i-1} + h_{i} + \textbf{P}})) \qquad (6)$

其中 $h_i$ 为第 $i$ 个Token的发射概率， $\textbf{P}$ 是转移矩阵。由于发射概率矩阵 $h$ 和转移概率矩阵 $\textbf{P}$ 独立于 $y$ 的序列路径计算，可以将其提出，可得：

$log(\sum_{y'_{0,i} \in Y} \exp{(\text{Score}_i})) = log(\sum_{y'_{0,i-1} \in Y} \exp{(\text{Score}_{i-1}})) + h_{i} + \textbf{P} \qquad (7)$

ronlym

关注

23
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
昇思25天学习打卡营第25天|LSTM+CRF序列标注

序列标注指给定输入序列，给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取，包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。输入序列清华大学座落于首都北京输出标注BIIIOOOOOBI如上表所示，清华大学和北京是地名，需要将其识别，我们对每个输入的单词预测其标签，最后根据标签来识别实体。
复制链接

扫一扫