命名实体识别LSTM+CRF的前向计算推导

最新推荐文章于 2023-07-25 14:40:35 发布

三七、

最新推荐文章于 2023-07-25 14:40:35 发布

阅读量1k

点赞数 1

分类专栏： AI调参侠

本文链接：https://blog.csdn.net/geek_hch/article/details/105156117

版权

AI调参侠专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

1. log linear model
- 1.2 逻辑回归
- 1.1 CRF与逻辑回归的区别
2. NER中的LSTM+CRF
3. 一码两用：锁定CRF转移矩阵参数等价于交叉熵损失
参考文献

在用LSTM+CRF做命名实体识别任务时，由于pytorch框架的crf需要自己实现，网上的很多教程都跳过了一些关键部分导致自己难以理解。本文用来记录自己的相关理解，仅针对线性链式的CRF。欢迎指正。

1. log linear model

CRF、MEMM、N元逻辑回归都属于log linear model。我们先来理解这个大类。
$\boldsymbol { w }_{|J|} ) = \frac { \exp ( \boldsymbol { w }_{|J|} \cdot \boldsymbol F_{|J|} ( x , y ) ) } { \sum _ { y ^ { \prime } \in \mathcal { Y } } \exp \left( \boldsymbol { w }_{|J|} \cdot \boldsymbol F_{|J|} \left( x , y ^ { \prime } \right) \right) }$
其中 $\boldsymbol { w }$ 为模型参数， $\boldsymbol { F }_{|J|}( x , y )$ 为给定输入特征 $x$ ,输出标签 $y$ 的特征向量。

注意：这里模型参数和特征向量都为J, 物理意义是该模型一共有J个特征。点乘表示用这J个特征计算一个分数。与NLP任务中输入序列长度无关！

1.2 逻辑回归

各种log linear model模型的区别，仅仅是在特征函数 $\boldsymbol { F }_{|J|}( x , y )$ 的定义不同。对于逻辑回归，假设特征x长度为M, 标签类别数为N, 那么 $J = M * N$ 。且 $F_j=flaten(\boldsymbol x \times \boldsymbol I_{y=C})$

1.1 CRF与逻辑回归的区别

CRF与逻辑回归的不同，在于

(1)CRF的特征函数 $\boldsymbol { F }_{|J|}( x , y )$ 考虑了输入数据中的时序信息
$\boldsymbol { F }_{|J|}( x , y )=\sum_{i=2}^Tf_{|J|}(x_i, y_i, y_{i-1}) \tag{1.1}$
(2)CRF的y与x都增加了一个维度，即序列长度T

2. NER中的LSTM+CRF

2.1 CRF的特征定义

对于NER任务中，序列长度为T，标签类别数为n的数据，LSTM的输出特征矩阵 $B_{T\times n}$ 作为CRF层的输入， $B_{i,j}$ 为第 $i$ 个时间步为标签 $j$ 的概率。NER任务的CRF中我们定义了两个特征函数：

输入特征B （代码中的feats, 可以理解为发射矩阵emission）
和转移特征A (代码中的transition矩阵)

权重 $w = [1, 1]$ (这里之所以可以直接假设权重值，是因为训练过程中LSTM层的输出分布B、转移分数A分布可以动态调整，因此w可以设置固定值)现在重写CRF的特征如下，并将其定义为score：
$\begin{aligned} score(y|A,B) &=\boldsymbol { w }_{|J|} \cdot \boldsymbol F_{|J|} ( x , y ) )\\ &=\boldsymbol { w } \cdot \sum_{i=2}^Tf_{|J|}(x_i, y_i, y_{i-1})\\ &=B_{1, y_1}+\sum_{i=2}^T(B_{i,y_i} + A_{y_{i-1},y_i}) \end{aligned}$

理解了这两个特征，就成功的将CRF于NER任务结合了。下面要知道如何估计特征参数，即反向传播A和B。

2.2 参数估计

CRF的参数估计使用的是最大似然法，损失函数 $log\_likehood$ 也就是对数似然函数。

对于一个训练样本，有一个输入序列x和一个tag序列y。x经过LSTM层得到特征矩阵B。
我们的目标是求现有参数下的概率 $p(\boldsymbol y|A, B)$ ，并最大化这个值，按照老规矩使用其负对数作为loss, 回到log-linear model的定义，：
$\begin{aligned} loss &= -log(p(\boldsymbol y|A,B) )\\ &= -log(\frac{exp(score(y|A,B))}{\sum_{\hat y}exp(score(\hat y|A,B))})\\ &=log(\sum_{\hat y}exp(score(\hat y|A,B))) - score(y|A,B)\\ &=log\_sum\_exp(score(\hat y|A,B)))- score(y|A,B) \end{aligned}$

一旦loss确定，剩下的事就可以交给pytorch框架来自动优化了。但是上面这个loss怎么计算呢？ $s c o r e (y ∣ A, B)$ 这一项好说，线性复杂度O(T)。

2.3 全局正则项的计算推导

$log(\sum_{\hat y}exp(score(\hat y|A,B)))$ 这一项，如果用暴力计算，就是要先算出每一个时间步的所有可能路径，复杂度为 $O(Tn^T)$ , 类别数目 $n$ 稍多一点就会爆炸。需要想办法消掉指数复杂度，而很巧的是，这确实可以在输入序列上转换为子问题，从而使用动态规划算法。根据上述score的计算公式，可以将输入序列长度为 $T$ 的正则项写为：
$Z=log(\sum_{\hat y}exp(score(\hat y^{(1,T-1)}|A,B)+score(\hat y^{(T-1,T)}|A,B)))\\ =log(\sum_{\hat y}(e^{score(\hat y^{(1,T-1)}|A,B)}\cdot e^{score(\hat y^{(T-1,T)}|A,B)}))$
注意这里 $score(\hat y^{(T-1,T)}|A,B)=B_{T,y_T} + A_{y_{T-1},y_T}$ ，表示所有路径在第T-1到第T步增加的分数，有 $n^2$ 个值，将其作为系数，合并同类项：
$Z^{(T)}=log(\sum e^{score(\hat y^{(T-1,T)}|A,B)}) \sum_{\hat y}(e^{score(\hat y^{(1,T-1)}|A,B)})\\ =Z^{(T-1)}+log\_sum\_exp(score(\hat y^{(T-1,T)}|A,B))$
到这里就该知道是标准的动态规划了，并且时间复杂度为 $O(Tn^2)$ 。

3. 一码两用：锁定CRF转移矩阵参数等价于交叉熵损失

通过锁定CRF中transition矩阵的参数，即将里面的每一个值都初始化为0，并且训练过程中不更新这一层的参数。那么这时的损失函数变为下面这个式子：
$\begin{aligned} loss &= -log(p(\boldsymbol y|B) )\\ &= -log(\frac{exp(score(y|B))}{\sum_{\hat y}exp(score(\hat y|A,B))})\\ &=log(\sum_{\hat y}exp(score(\hat y|B))) - score(y|B)\\ &=Z- score(y|B) \end{aligned}$
由于转移分数全部为0，因此 $score(\hat y|B)$ 实际上等于整个发射矩阵的和：
$Z=log(\sum_{\hat y}exp(\sum_{i=1}^T\sum_{j=1}^nB_ij))$
所以有：
$\begin{aligned} loss &= Z-score(y|B) \\ &=log(\sum_{\hat y}exp(\sum_{i=1}^T\sum_{j=1}^nB_{i,j})) - \sum_{i=1}^TB_{i,y'}\\ &=\sum_{i=1}^T(log\sum_{\hat y}e^{\sum_{j=1}^nB_{i,j}}-log(e^{B_{i,y'}}))\\ &=-\sum_{i=1}^Tlog\frac{e^{B_{i,y'}}}{\sum_{\hat y}e^{\sum_{j=1}^nB_{i,j}}} \end{aligned}$
其中 $B_{i,y'}$ 为真实标签对应分数。最小化这个损失相当于最大化每个时间步的真实标签对应的emission分数。与标准的softmax+交叉熵损失等价。

参考文献

三七、

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
命名实体识别LSTM+CRF的前向计算推导

文章目录1. log linear model1.2 逻辑回归1.1 CRF与逻辑回归的区别2. NER中的LSTM+CRF2.1 CRF的特征定义2.2 参数估计2.3 全局正则项的计算优化参考文献在用LSTM+CRF做命名实体识别任务时，由于pytorch框架的crf需要自己实现，网上的很多教程都跳过了一些关键部分导致自己难以理解。本文用来记录自己的相关理解，仅针对线性链式的CRF。欢迎指正...
复制链接

扫一扫

专栏目录