Bidirectional LSTM-CRF Models for Sequence Tagging

最新推荐文章于 2023-08-24 23:07:54 发布

置顶菜小白—NLP

最新推荐文章于 2023-08-24 23:07:54 发布

阅读量1.6k

点赞数 3

分类专栏： NLP

本文链接：https://blog.csdn.net/ACM_hades/article/details/89520119

版权

NLP 专栏收录该内容

40 篇文章 7 订阅

订阅专栏

参考链接

参考论文:https://arxiv.org/pdf/1508.01991v1.pdf
代码:https://github.com/GlassyWing/bi-lstm-crf

概述

这篇论文主要讲的是：基于LSTM的序列标注模型(sequence tagging model)
主要介绍：BI-LSTM-CRF模型
BI-LSTM-CRF模型的优点：
- A. 可以有效的使用输入前后的特征信息,因为它使用双向的LSTM模型
- B. 可以使用句子级别标记信息，因为使用了CRF层。
- C. 该模型也具有强壮的健壮性，对词向量没有太大的依赖性。

模型架构

主要描述模型：LSTM, BI-LSTM, CRF, LSTM-CRF 和BI-LSTM-CRF.四个模型

LSTM Networks

RNN在命名实体识别的应用如下图所示：

其中 $x$ 为输入层， $h$ 是隐藏层， $y$ 是输出标签；在命名实体识别的任务中输入的每一个词都有一个标签，标签的类型有： $O = o t h e r$ 、 $P E R = P e r s o n$ 、 $L O C = L o c a t i o n$ 、 $O R G = O r g a n i z a t i o n$ 和 $M I S C = M i s c e l l a n e o u s$ 。 $B -$ 表示表示开始位置 $I -$ 表示中间位置。
RNN的内部运算公式： $h (t) = f (U x (t) + W h (t - 1))$ $y (t) = g (V h (t))$ $U, W$ 和 $V$ 为模型参数。 $f$ 为 $s i g m o i d$ 激活函数， $g$ 为 $s o f t m a x$ 激活函数： $f(z)=\frac{1}{1-e^{-z} }$ $g(z_m )=\frac{e^{z_m }}{∑_ke^{z_k } }$
在这篇论文中我们使用LSTM(Long Short-Term Memory)来进行序列标注。LSTM单元图如下：
LSTM的计算公式如下： $i_t=σ(W_{xi} x_t+W_{hi} h_{t-1}+W_{ci} c_{t-1}+b_i )=σ(W_i [x_t,h_{t-1},c_{t-1}]+b_i )$ $f_t=σ(W_{xf} x_t+W_{hf} h_{t-1}+W_{cf} c_{t-1}+b_f )=σ(W_f [x_t,h_{t-1},c_{t-1}]+b_f )$ $o_t=σ(W_{xo} x_t+W_{ho} h_{t-1}+W_{c0} c_{t-1}+b_0 )=σ(W_0 [x_t,h_{t-1},c_{t-1}]+b_0 )$ $c_t=f_t c_{t-1}+i_t tan h⁡(W_{xc} x_t+W_{hc} h_{t-1}+b_c )=f_t c_{t-1}+i_t tanh⁡(W_c [x_t,h_{t-1}]+b_c)$ $h_t=o_t tanh⁡(c_t)$ $σ$ 为logistic sigmoid函数， $i, f, o$ 和 $c$ 分别是：输入门、遗忘门、输出门和单元向量(cell vectors)他们的大小等于隐藏层状态向量h的大小。下图表示的是LSTM应用于标注模型：

Bidirectional LSTM Networks

论文在序列标注中使用双向的LSTM网络：

CRF networks

在预测当前标签时，有两种不同的方法可以利用邻近标签信息。
- 第一种：预测每个时刻的标签分布，然后使用类似波束的(beam-like)解码来找到最佳标签序列。
- 第二种：关注句子级别而不是单个位置，这就是条件随机场（CRF）模型。如下图所示：

LSTM-CRF networks

我们将LSTM network 和CRF network 结合起来形成了LSTM-CRF模型。如下图所示：
该网络可以通过LSTM层有效地使用过去的输入特征，并通过CRF层有效地使用句子级标签信息。通过CRF层，我们可以有效地使用过去和将来的标签来预测当前标签。
CRF层其实质就是一个状态转移矩阵
整个模型的计算过程：
- 我们用 $x]_1^T$ 表示输出句子，长度为 $T$ ；
- 我们假设标签数为 $L$ 。
- 用 $f_θ ([x]_1^T )∈R^{L×T}$ 表示 $L S T M$ 网络输出矩阵，其第 $i$ 列表示的就是句子中第 $i$ 个最后的标签概率分布。
- 用 $f_θ]_{i,t}$ 表示 $f_θ ([x]_1^T )∈R^{L×T}$ 的 $(i, t)$ 位置的元素，表示第 $t$ 个词经过 $L S T M$ 输出第 $i$ 个标签的概率。
- CRF层我们用 $A∈R^{L×L}$ 表示。 $A]_{i,j}$ 表示的是第 $i$ 标签到第 $j$ 个标签的转移分数(概率)。
- 这样对每个句子 $x]_1^T$ 我们得到了一个类似全连接神经网络的分数网络：网络的层数= $T$ (句子长度)；每层的神经元个数= $L$ (标签个数)；相邻两层神经网的链接权重都是矩阵 $A$ 。这样句子的每个标签序列都都对应这个网络的一条路径，路径上的权重和就是这个标签序列的分数。模型的预测就是分数最高的路径所对应的标签序列。
- 求最分数最高路径可以通过动态规划轻松的求得。下图形象的描述了整个过程：

BI-LSTM-CRF networks

我们将双向的LSTM network 和CRF network 结合起来形成了BI-LSTM-CRF模型。如下图所示：

模型运算过程与LSTM-CRF模型一致。不同的是：BILSTM-CRF除了能够使用过去输入特征和句子级别标记信息之外，还可以使用将来输入特征。

总结: 序列标注(深度学习+ 条件随机场)

参考博客:https://spaces.ac.cn/archives/5542

softmax层：

序列标注可以简单理解为是给序列中的每一词都进行分类，既然是分类，很自然想到将这个序列用CNN或者RNN进行编码后，接一个全连接层用softmax激活，如下图所示：

条件随机场CRF：

CRF主要用于序列标注问题，在序列标注中当我们设计标签时，比如用s、b、m、e的4个标签来做字标注法的分词，目标输出序列本身会带有一些上下文关联，比如s后面就不能接m和e，等等。逐标签softmax并没有考虑这种输出层面的上下文关联。而CRF就是用来将目标序列本身的一下关联引入模型的方式。如果我们希望CNN或RNN模型能自己学到这些关联，有时候会“强模型所难”，而CRF则更直接一点，它将输出层面的关联分离了出来，这使得模型在学习上更为“从容”：

条件随机场CRF：

在序列标注中，假如一个输入有n帧，每一帧的标签有k种可能性，那么理论上就有 $k^n$ 中不同的输出。我们可以将它用如下的网络图进行简单的可视化。在下图中，每个点代表一个标签的可能性，点之间的连线表示标签之间的关联，而每一种标注结果，都对应着图上的一条完整的路径。
而在序列标注任务中，我们的正确答案是一般是唯一的。比如“今天天气不错”，如果对应的分词结果是“今天/天气/不/错”，那么目标输出序列就是bebess，除此之外别的路径都不符合要求。换言之，在序列标注任务中，我们的研究的基本单位应该是路径，我们要做的事情，是从 $k^n$ 条路径选出正确的一条，那就意味着，如果将它视为一个分类问题，那么将是 $k^n$ 类中选一类的分类问题！
具体来讲，在CRF的序列标注问题中，我们要计算的是条件概率： $P(y_1,y_2,…,y_n│x_1,x_2,…,x_n )=P(y_1,y_2,…,y_n│X)$
为了得到这个概率的估计，CRF做了两个假设：
- 假设一 :该分布是指数族分布：
  这个假设意味着存在函数 $f(y_1,y_2,…,y_n,X)$ ，使得: $P(y_1,y_2,…,y_n│X)=\frac{1}{Z(X)}exp⁡(f(y_1,y_2,…,y_n,X))$ 其中 $Z (x)$ 是归一化因子，因为这个是条件分布，所以归一化因子跟 $x$ 有关。这个 $f$ 函数可以视为一个打分函数，打分函数取指数并归一化后就得到概率分布。 $Z(X)=∑_{y_1,y_2,…,y_n}exp⁡(f(y_1,y_2,…,y_n,X))$
- 假设二:输出之间的关联仅发生在相邻位置
  这个假设意味着 $f(y_1,y_2,…,y_n,X)$ 可以更进一步简化为： $f(y_1,y_2,…,y_n,X)=h(y_1,X)+g(y_1,y_2,X)+…+g(y_{n-1},y_n,X)+h(y_n,X)$ 这也就是说，现在我们只需要对每一个标签和每一个相邻标签对分别打分，然后将所有打分结果求和得到总分。
尽管已经做了大量简化，但一般来说还是过于复杂，难以求解。于是考虑到当前深度学习模型中，RNN或者层叠CNN等模型已经能够比较充分捕捉各个 $y$ 与输出 $x$ 的联系，因此我们可以用神经网络来实现 $f$ 。这样麻烦的问题只有 $g$ 了，于是我们继续简化 $g$ ，不妨考虑函数 $g$ 跟 $x$ 无关，那么： $f(y_1,y_2,…,y_n,X)=h(y_1,X)+g(y_1,y_2 )+…+g(y_{n-1},y_n )+h(y_n,X)$
到这里我们就可以可以将深度学习模型和CRF进行分工了， $h(y_t,X)$ 是输入序列生成 $y_t$ 的打分函数这个可以通过RNN或CNN加上softmax层产生。 $g(y_t,y_{t+1})$ 是一个给相邻目标序列打分的函数它就是CRF，我们一般用以可以训练的 $k \times k$ 的矩阵 $G$ 来实现, $k$ 是标签数。因此概率分布变为： $P(y_1,y_2,…,y_n│X)=\frac{1}{Z(X)}exp⁡\{ h(y_1,X)+\sum_{j=1}^{n+1}[g(y_j,y_{j+1} )+h(y_{j+1},X)]\}$ $Z(X)=∑_{y_1,y_2,…,y_n}exp⁡\{ h(y_1,X)+\sum_{j=1}^{n+1}[g(y_j,y_{j+1} )+h(y_{j+1},X)]\}$ 其中 $h$ 由神经网络最后输出， $g$ 则直接通过查找矩阵 $G$ 得到。
损失函数：对数概率函数 $logP(y_1,…,y_n|x)$ ${h(y1;x)+∑_{k=1}^{n−1}[g(y_k,y_{k+1})+h(y_{k+1};x)]\}+logZ(x)$ 其中第一项是原来概率式的分子的对数，它是给标签序列打分，虽然它看上去挺迂回的，但是并不难计算。真正的难度在于分母的对数 $l o g Z (x)$ 这一项；在这里它需要我们对所有可能的路径的打分进行指数求和，而我们前面已经说到，这样的路径数是指数量级的 $k^n$ ，因此直接来算几乎是不可能的。
事实上，归一化因子难算，几乎是所有概率图模型的公共难题。幸运的是，在CRF模型中，由于我们只考虑了临近标签的联系（马尔可夫假设），因此我们可以递归地算出归一化因子，这使得原来是指数级的计算量降低为线性级别。具体的说来我们只要出下图所有路径的总和：

其可以在 $O (K \times (K + L))$ 的时间复杂度求出来，K为标签个数，L为句子长度。
求最大得分是路径的方法使用动态规划。