昇思25天学习打卡营第23天 | LSTM+CRF序列标注

30 篇文章 0 订阅
27 篇文章 1 订阅

概述

序列标注指给定输入序列,给序列中每个Token进行标注标签的过程。序列标注问题通常用于从文本中进行信息抽取,包括分词(Word Segmentation)、词性标注(Position Tagging)、命名实体识别(Named Entity Recognition, NER)等。以命名实体识别为例:

输入序列
输出标注BIIIOOOOOBI

如上表所示,清华大学 和 北京是地名,需要将其识别,我们对每个输入的单词预测其标签,最后根据标签来识别实体。

这里使用了一种常见的命名实体识别的标注方法——“BIOE”标注,将一个实体(Entity)的开头标注为B,其他部分标注为I,非实体标注为O。

条件随机场(Conditional Random Field, CRF)

从上文的举例可以看到,对序列进行标注,实际上是对序列中每个Token进行标签预测,可以直接视作简单的多分类问题。但是序列标注不仅仅需要对单个Token进行分类预测,同时相邻Token直接有关联关系。以清华大学一词为例:

输入序列
输出标注BIII
输出标注OIII×

如上表所示,正确的实体中包含的4个Token有依赖关系,I前必须是B或I,而错误输出结果将字标注为O,违背了这一依赖。将命名实体识别视为多分类问题,则每个词的预测概率都是独立的,易产生类似的问题,因此需要引入一种能够学习到此种关联关系的算法来保证预测结果的正确性。而条件随机场是适合此类场景的一种概率图模型。下面对条件随机场的定义和参数化形式进行简析。

考虑到序列标注问题的线性序列特点,本节所述的条件随机场特指线性链条件随机场(Linear Chain CRF)

设𝑥={𝑥0,...,𝑥𝑛}𝑥={𝑥0,...,𝑥𝑛}为输入序列,𝑦={𝑦0,...,𝑦𝑛},𝑦∈𝑌𝑦={𝑦0,...,𝑦𝑛},𝑦∈𝑌为输出的标注序列,其中𝑛𝑛为序列的最大长度,𝑌𝑌表示𝑥𝑥对应的所有可能的输出序列集合。则输出序列𝑦𝑦的概率为:

𝑃(𝑦|𝑥)=exp(Score(𝑥,𝑦))∑𝑦′∈𝑌exp(Score(𝑥,𝑦′))(1)𝑃(𝑦|𝑥)=exp⁡(Score(𝑥,𝑦))∑𝑦′∈𝑌exp⁡(Score(𝑥,𝑦′))(1)

设𝑥𝑖𝑥𝑖, 𝑦𝑖𝑦𝑖为序列的第𝑖𝑖个Token和对应的标签,则ScoreScore需要能够在计算𝑥𝑖𝑥𝑖和𝑦𝑖𝑦𝑖的映射的同时,捕获相邻标签𝑦𝑖−1𝑦𝑖−1和𝑦𝑖𝑦𝑖之间的关系,因此我们定义两个概率函数:

  1. 发射概率函数𝜓EMIT𝜓EMIT:表示𝑥𝑖→𝑦𝑖𝑥𝑖→𝑦𝑖的概率。
  2. 转移概率函数𝜓TRANS𝜓TRANS:表示𝑦𝑖−1→𝑦𝑖𝑦𝑖−1→𝑦𝑖的概率。

则可以得到ScoreScore的计算公式:

Score(𝑥,𝑦)=∑𝑖log𝜓EMIT(𝑥𝑖→𝑦𝑖)+log𝜓TRANS(𝑦𝑖−1→𝑦𝑖)(2)Score(𝑥,𝑦)=∑𝑖log⁡𝜓EMIT(𝑥𝑖→𝑦𝑖)+log⁡𝜓TRANS(𝑦𝑖−1→𝑦𝑖)(2)

设标签集合为𝑇𝑇,构造大小为|𝑇|𝑥|𝑇||𝑇|𝑥|𝑇|的矩阵𝐏P,用于存储标签间的转移概率;由编码层(可以为Dense、LSTM等)输出的隐状态ℎℎ可以直接视作发射概率,此时ScoreScore的计算公式可以转化为:

Score(𝑥,𝑦)=∑𝑖ℎ𝑖[𝑦𝑖]+𝐏𝑦𝑖−1,𝑦𝑖(3)Score(𝑥,𝑦)=∑𝑖ℎ𝑖[𝑦𝑖]+P𝑦𝑖−1,𝑦𝑖(3)

接下来我们根据上述公式,使用MindSpore来实现CRF的参数化形式。首先实现CRF层的前向训练部分,将CRF和损失函数做合并,选择分类问题常用的负对数似然函数(Negative Log Likelihood, NLL),则有:

Loss=−𝑙𝑜𝑔(𝑃(𝑦|𝑥))(4)Loss=−𝑙𝑜𝑔(𝑃(𝑦|𝑥))(4)

由公式(1)(1)可得

Loss=−𝑙𝑜𝑔(exp(Score(𝑥,𝑦))∑𝑦′∈𝑌exp(Score(𝑥,𝑦′)))(5)Loss=−𝑙𝑜𝑔(exp⁡(Score(𝑥,𝑦))∑𝑦′∈𝑌exp⁡(Score(𝑥,𝑦′)))(5)

=𝑙𝑜𝑔(∑𝑦′∈𝑌exp(Score(𝑥,𝑦′))−Score(𝑥,𝑦)=𝑙𝑜𝑔(∑𝑦′∈𝑌exp⁡(Score(𝑥,𝑦′))−Score(𝑥,𝑦)

根据公式(5)(5),我们称被减数为Normalizer,减数为Score,分别实现后相减得到最终Loss。

Score计算

首先根据公式(3)(3)计算正确标签序列所对应的得分,这里需要注意,除了转移概率矩阵𝐏P外,还需要维护两个大小为|𝑇||𝑇|的向量,分别作为序列开始和结束时的转移概率。同时我们引入了一个掩码矩阵𝑚𝑎𝑠𝑘𝑚𝑎𝑠𝑘,将多个序列打包为一个Batch时填充的值忽略,使得ScoreScore计算仅包含有效的Token。

Normalizer计算 归一化器计算 ¶

根据公式(5)(5),Normalizer是𝑥𝑥对应的所有可能的输出序列的Score的对数指数和(Log-Sum-Exp)。此时如果按穷举法进行计算,则需要将每个可能的输出序列Score都计算一遍,共有|𝑇|𝑛|𝑇|𝑛个结果。这里我们采用动态规划算法,通过复用计算结果来提高效率。

假设需要计算从第00至第𝑖𝑖个Token所有可能的输出序列得分Score𝑖Score𝑖,则可以先计算出从第00至第𝑖−1𝑖−1个Token所有可能的输出序列得分Score𝑖−1Score𝑖−1。因此,Normalizer可以改写为以下形式:

其中ℎ𝑖ℎ𝑖为第𝑖𝑖个Token的发射概率,𝐏P是转移矩阵。由于发射概率矩阵ℎℎ和转移概率矩阵𝐏P独立于𝑦𝑦的序列路径计算,可以将其提出,可得:

根据公式(7),Normalizer的实现如下:

Viterbi算法

在完成前向训练部分后,需要实现解码部分。这里我们选择适合求解序列最优路径的Viterbi算法。与计算Normalizer类似,使用动态规划求解所有可能的预测序列得分。不同的是在解码时同时需要将第𝑖𝑖个Token对应的score取值最大的标签保存,供后续使用Viterbi算法求解最优预测序列使用。

取得最大概率得分ScoreScore,以及每个Token对应的标签历史HistoryHistory后,根据Viterbi算法可以得到公式:

从第0个至第𝑖𝑖个Token对应概率最大的序列,只需要考虑从第0个至第𝑖−1𝑖−1个Token对应概率最大的序列,以及从第𝑖𝑖个至第𝑖−1𝑖−1个概率最大的标签即可。因此我们逆序求解每一个概率最大的标签,构成最佳的预测序列。

由于静态图语法限制,我们将Viterbi算法求解最佳预测序列的部分作为后处理函数,不纳入后续CRF层的实现。

CRF层

完成上述前向训练和解码部分的代码后,将其组装完整的CRF层。考虑到输入序列可能存在Padding的情况,CRF的输入需要考虑输入序列的真实长度,因此除发射矩阵和标签外,加入seq_length参数传入序列Padding前的长度,并实现生成mask矩阵的sequence_mask方法。

综合上述代码,使用nn.Cell进行封装,最后实现完整的CRF层如下:

BiLSTM+CRF模型

在实现CRF后,我们设计一个双向LSTM+CRF的模型来进行命名实体识别任务的训练。模型结构如下:

nn.Embedding -> nn.LSTM -> nn.Dense -> CRF

其中LSTM提取序列特征,经过Dense层变换获得发射概率矩阵,最后送入CRF层。具体实现如下:

summary~~

LSTM(长短期记忆网络)和CRF(条件随机场)是两种常用于序列标注任务的深度学习模型。序列标注任务的目标是给定一个序列,为序列中的每个元素分配一个标签,这些标签通常表示元素的类别或属性。

LSTM是一种特殊的循环神经网络(RNN),它能够学习序列数据中的长期依赖关系。LSTM通过引入门控机制来解决传统RNN在处理长序列时遇到的梯度消失或梯度爆炸问题。

CRF是一种概率图模型,它用于给序列数据分配标签时,能够考虑标签之间的依赖关系。CRF通过定义一个全局的条件概率分布来确保整个序列的标签分配是最优的。

将LSTM和CRF结合起来进行序列标注,可以利用LSTM的强大特征提取能力来捕捉序列中的上下文信息,并通过CRF层来优化标签序列的全局最优性。具体来说,LSTM首先处理输入序列,提取出每个元素的特征表示,然后CRF层在此基础上进行标签序列的预测,确保最终的标签序列在全局上是最优的。

这种组合模型在很多自然语言处理任务中表现优异,如命名实体识别(NER)、词性标注(POS tagging)等。通过LSTM+CRF模型,可以有效地解决序列标注问题,提高模型的准确性和鲁棒性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值