pytorch BiLSTM+CRF代码详解

最新推荐文章于 2024-08-10 07:46:27 发布

ancient_wizard_wjs

最新推荐文章于 2024-08-10 07:46:27 发布

阅读量3.5k

点赞数 2

分类专栏：自然语言 python pytorch 文章标签： pytorch BiLSTM+CRF CRF BiLSTM

本文链接：https://blog.csdn.net/ancient_wizard_wjs/article/details/88689545

版权

本文介绍了BiLSTM+CRF模型在命名实体识别任务中的应用，详细阐述了BiLSTM-CRF模型结构，讨论了没有CRF层的影响，并解析了CRF层的作用。此外，文章还深入讲解了标签得分、损失函数的定义及计算，以及关键代码段的解释，包括log_sum_exp、neg_log_likelihood和Viterbi解码等函数。

摘要由CSDN通过智能技术生成

一. BILSTM + CRF介绍

https://www.jianshu.com/p/97cb3b6db573

1.介绍

基于神经网络的方法，在命名实体识别任务中非常流行和普遍。如果你不知道Bi-LSTM和CRF是什么，你只需要记住他们分别是命名实体识别模型中的两个层。

1.1开始之前

我们假设我们的数据集中有两类实体——人名和地名，与之相对应在我们的训练数据集中，有五类标签：

B-Person， I- Person，B-Organization，I-Organization

假设句子x由五个字符w1,w2,w3,w4,w5组成，其中【w1,w2】为人名类实体，【w3】为地名类实体，其他字符标签为“O”。

1.2BiLSTM-CRF模型

以下将给出模型的结构：
第一，句子x中的每一个单元都代表着由字嵌入或词嵌入构成的向量。其中，字嵌入是随机初始化的，词嵌入是通过数据训练得到的。所有的嵌入在训练过程中都会调整到最优。
第二，这些字或词嵌入为BiLSTM-CRF模型的输入，输出的是句子x中每个单元的标签。

Bi-LSTM结构图
尽管一般不需要详细了解BiLSTM层的原理，但是为了更容易知道CRF层的运行原理，我们需要知道BiLSTM的输出层。
图2.Bi-LSTM标签预测原理图

如上图所示，BiLSTM层的输出为每一个标签的预测分值，例如，对于单元w0,BiLSTM层输出的是

1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) 0.05 (O).

这些分值将作为CRF的输入。

1.3 如果没有CRF层会怎样

你也许已经发现了，即使没有CRF层，我们也可以训练一个BiLSTM命名实体识别模型，如图所示：

图3.去除CRF的BiLSTM命名实体识别模型

由于BiLSTM的输出为单元的每一个标签分值，我们可以挑选分值最高的一个作为该单元的标签。例如，对于单元w0,“B-Person”有最高分值—— 1.5，因此我们可以挑选“B-Person”作为w0的预测标签。同理，我们可以得到w1——“I-Person”，w2—— “O” ，w3——“B-Organization”，w4——“O”。
虽然我们可以得到句子x中每个单元的正确标签，但是我们不能保证标签每次都是预测正确的。例如，图4.中的例子，标签序列是“I-Organization I-Person” and “B-Organization I-Person”，很显然这是错误的。

在这里插入图片描述

1.4 CRF层能从训练数据中获得约束性的规则

CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到。
这些约束可以是：
I：句子中第一个词总是以标签“B-“ 或 “O”开始，而不是“I-”
II：标签“B-label1 I-label2 I-label3 I-…”,label1, label2, label3应该属于同一类实体。例如，“B-Person I-Person” 是合法的序列, 但是“B-Person I-Organization” 是非法标签序列.
III：标签序列“O I-label” is 非法的.实体标签的首个标签应该是 “B-“ ，而非 “I-“, 换句话说,有效的标签序列应该是“O B-label”。
有了这些约束，标签序列预测中非法序列出现的概率将会大大降低。

二. 标签的score和损失函数的定义

https://zhuanlan.zhihu.com/p/27338210

Bi-LSTM layer的输出维度是tag size，这就相当于是每个词 w_i 映射到tag的发射概率值，设Bi-LSTM的输出矩阵为P，其中P_i,j代表词w_i映射到tag_j的非归一化概率。对于CRF来说，我们假定存在一个转移矩阵A，则A_i,j代表tag_i转移到tag_j的转移概率。
对于输入序列 X 对应的输出tag序列 y，定义分数为
在这里插入图片描述

利用Softmax函数，我们为每一个正确的tag序列y定义一个概率值（Y_X代表所有的tag序列，包括不可能出现的）
在这里插入图片描述
因而在训练中，我们只需要最大化似然概率p(y|X)即可，这里我们利用对数似然

所以我们将损失函数定义为-log(p(y|X))，就可以利用梯度下降法来进行网络的学习了。
loss function:

在对损失函数进行计算的时候，S(X,y)的计算很简单，而在这里插入图片描述（下面记作logsumexp）的计算稍微复杂一些，因为需要计算每一条可能路径的分数。这里用一种简便的方法，对于到词w_i+1的路径，可以先把到词w_i的logsumexp计算出来，因为

因此先计算每一步的路径分数和直接计算全局分数相同，但这样可以大大减少计算的时间。

三. 对于损失函数的详细解释

这篇文章对于理解十分有用

https://blog.csdn.net/cuihuijun1hao/article/details/79405740

举例说【我爱中国人民】对应标签【N V N】那这个标签就是一个完整的路径，也就对应一个Score值。
接下来我想讲的是这个公式:
在这里插入图片描述
这个公式成立是很显然的，动笔算一算就知道了，代码里其实就是用了这个公式的原理。

def _forward_alg(self, feats):
        # Do the forward algorithm to compute the partition function
        init_alphas = torch.full((1, self.tagset_size), -10000.)
        # START_TAG has all of the score.
        init_alphas[0][self.tag_to_ix[START_TAG]] = 0.

        # Wrap in a variable so that we will get automatic backprop
        forward_var = init_alphas

        # Iterate through the sentence
        for feat in feats:
            alphas_t = []  # The forward tensors at this timestep
            for next_tag in range(self.tagset_size):
                # broadcast the emission score: it is the same regardless of
                # the previous tag
                emit_score = feat[next_tag].view(
                    1, -1).