BiLSTM上的CRF,用命名实体识别任务来解释CRF(3)推理

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:CreateMoMo

编译:ronghuaiyang

导读

今天是第三部分,介绍如何推理新的句子。

前两篇链接:

BiLSTM上的CRF,用命名实体识别任务来解释CRF(1)

BiLSTM上的CRF,用命名实体识别任务来解释CRF(2)损失函数

2.6 为新的句子推理标签

在前面的章节中,我们学习了BiLSTM-CRF模型的结构和CRF损失函数的细节。你可以通过各种开源框架(Keras、Chainer、TensorFlow等)实现自己的BiLSTM-CRF模型。最重要的事情之一是模型的反向传播是在这些框架上自动计算的,因此你不需要自己实现反向传播来训练你的模型(即计算梯度和更新参数)。此外,一些框架已经实现了CRF层,因此将CRF层与你自己的模型结合起来非常容易,只需添加一行代码即可。

在本节中,我们将探索如何在模型准备好时在测试期间推断句子的标签。

步骤1:BiLSTM-CRF模型的Emission和transition得分

假设,我们有一个包含三个单词的句子:

此外,我们已经从BiLSTM模型得到了Emission分数,从下面的CRF层得到了transition分数:

表示 被标记为 的得分。

是从标签i转换成标签j的得分。

步骤2:开始推理


如果你熟悉Viterbi算法,那么这一部分对你来说很容易。但如果你不熟悉,请不要担心。与前一节类似,我将逐步解释该算法。我们将从句子的左到右进行推理算法,如下图所示:

你会看到两个变量:obs和previous。previous存储前面步骤的最终结果。obs表示当前单词的信息。

是历史最好得分, 是历史对应的索引。这两个变量的细节将在它们出现时进行解释。请看下面的图片:你可以把这两个变量当作狗在探索森林时沿路留下的“记号”,这些“记号”可以帮助狗找到回家的路。

狗需要找到最好的路径来得到他最喜欢的骨头玩具,然后沿着他来的路回家

现在,我们观察到第一个单词,现在,对于是很明显的。

比如,如果 ,很显然, 的最佳的标签是

因为只有一个单词,而且没有标签直接的转换,transition的得分没有用到。


  1. previous扩展成:

  1. obs扩展成:

  1. previous, obstransition 分数都加起来:

然后:

你可能想知道,当我们计算所有路径的总分时,与上一节没有什么不同。请耐心和细心,你很快就会看到区别。

为下一次迭代更改previous的值:

比如,如果我们的得分是:

我们的下个迭代的previous是:

previous有什么含义吗? previous列表存储了每个当前的单词的标签的最大的得分。

[Example Start]

举个例子:

我们知道在我们的语料中,我们总共只有2个标签, 。这两个标签的索引是0和1。

previous[0]是以第0个标签 为结尾的路径的最大得分,类似的previous[1]是以第1个标签 为结尾的路径的最大得分。在每个迭代中,变量previous存储了以每个标签为结尾的路径的最大得分。换句话说,在每个迭代中,我们只保留了每个标签的最佳路径的信息()。具有小得分的路径信息会被丢掉。

[Example End]

回到我们的主任务:

同时,我们还有两个变量用来存储历史信息(得分和索引),

在这个迭代中,我们把最佳得分加上 ,为了方便,每个标签的最大得分会加上下划线。

另外,对应的列的索引存在 里。

说明一下, 的索引是0, 的索引是1,所以 表示对于当前的单词 和标签 ,当路径是 的时候,我们可以得到最大的得分是0.5,当路径是 的时候,我们可以得到最大的得分是0.4。 是过去的单词 的标签。


:

  1. previous扩展成:

  1. obs扩展成:

  1. previous, obstransition 分数都加起来:

然后:

为下一次迭代更改previous的值:

这次迭代我们得到的分数是:

我们得到最新的previous

实际上,previous[0]和previous[1]中最大的那个就是预测的最佳路径。

同时,每个标签和索引的最大得分会加到 上和 上。

步骤3:找到具有最高得分的最佳路径

这是最后一步!你就快完成了!在此步骤中,将使用 来查找得分最高的路径。我们将从最后一个到第一个的元素检查这两个列表中。


首先,检查 的最后一个元素:(0.8,0.9)和(1,0)。0.9表示当label为 时,我们可以得到最高的路径分数0.9。我们还知道 的索引是1,因此检查(1,0)[1]=0的值。索引“0”表示前一个标签为 ( 的索引为0),因此我们可以得到是 的最佳路径是

:

其次,我们继续向后移动并得到 :(1,1)的元素。从上一段我们知道w1的label是 (index是0),因此我们可以检查(1,1)[0]=1。因此,我们可以得到这部分的最佳路径 :

恭喜!我们这个例子中的最佳路径是

—END—

英文原文:https://createmomo.github.io/2017/11/24/CRF-Layer-on-the-Top-of-BiLSTM-6/

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值