BiLSTM-CRF中CRF层解析-3

最新推荐文章于 2022-03-29 18:41:16 发布

勤劳的凌菲

最新推荐文章于 2022-03-29 18:41:16 发布

阅读量3.5k

点赞数 8

分类专栏： Deep Learning 语音文章标签： CRF BiLSTM-CRF

本文链接：https://blog.csdn.net/Suan2014/article/details/89467024

版权

Deep Learning 同时被 2 个专栏收录

97 篇文章 9 订阅

订阅专栏

语音

11 篇文章 4 订阅

订阅专栏

2.3 CRF损失函数

CRF损失函数包含了真实路径得分和所有可能路径的总得分，如果预测对的情况下，真实路径在所有可能路径中得分应该是最高的。

举个栗子，假设我们数据的标签如下表所示：

Label	Index
B-Person	0
I-Person	1
B-Organization	2
I-Organization	3
O	4
START	5
END	6

我们有一个含有5个单词的句子，可能的路径为：

1)START B-Person B-Person B-Person B-Person B-Person END
2)START B-Person I-Person B-Person B-Person B-Person END
…
10)START B-Person I-Person O B-Organization O END
…
N) O O O O O O O

假设共有 $N$ 种可能路径，每一种可能的路径都有一个得分 $P_i$ ，所有路径的总得分为 $P_{total} = P_1+P_2+...+P_N = e^{S_1}+ e^{S_2} +...+e^{S_N}$ ，其中 $e$ 就是我们常用的指数常量 $e$ 。（在2.4节，我们将介绍如何计算 $S_i$ ， $S_i$ 也可以看作是路径的得分。）

假设，在所有可能路径中，第10条路径是真实路径，也就意味着，第10条路径对应的预测标签序列是对的，因此， $P_{10}$ 得分应该是最高的。

下式即为损失函数，在训练过程中，BiLSTM-CRF模型将会不断的更新，从而使真实路径得分占比越来越大：
$\frac{P_{RealPath}}{P_1+P_2+...+P_N}$
现在要解决的问题就是：
1)如何定义一个路径的得分；
2)如何计算所有可能路径的总得分；
3)当我们计算总得分时，我们需要列出所有可能路径吗（提前回答：当然不需要列出所有可能路径）

接下来，我们将介绍如何解决上述问题。

2.4 真实路径得分

在2.3节中，我们假设共有 $N$ 种可能路径，每一种可能的路径都有一个得分 $P_i$ ，所有路径的总得分为 $P_{total} = P_1+P_2+...+P_N = e^{S_1}+ e^{S_2} +...+e^{S_N}$ ，其中 $e$ 就是我们常用的指数常量 $e$ ， $e^{S_i}$ 为第 $i$ 条路径的得分。

显然，在所有可能路径中，肯定有一条真实路径（命名实体识别中，就是说这句话所有可能标签序列中，肯定有一个标签序列是对的），再举个栗子，1.2节中那句话的真实路径就是“START B-Person I-Person O B-Organization O END”，而其他的如“START B-Person B-Organization O I-Person I-Person B-Person”就是错误的。

在训练过程中，CRF损失函数只需要两个得分：真实路径得分和所有可能路径总得分，真实路径得分的比例应随着训练不断增加。

真实路径得分 $e^{S_i}$ 的计算是非常直接的，接下来，我们介绍如何计算 $S_i$ 。

如前所述，假设真实路径为：“START B-Person I-Person O B-Organization O END”，则操作如下：

假设该句子有5个单词组成： $w_1,w_2,w_3,w_4,w_5$ ；
再额外加两个单词 $w_0,w_6$ 分别表示该句子的开头和结果；
$S_i$ 由两部分计算得到： $S_i=EmissionScore+TransitionScore$ （2.1节介绍了发射得分，2.2节介绍了转移得分）

发射得分
$EmissionScore=x_{0,START}+x_{1,B-Person}+x_{2,I-Person}+x_{3,O}+x_{4,B-Organization}+x_{5,O}+x_{6,END}$

$x_{index,label}$ 是第 $i n d e x$ 个词被标记为 $l a b e l$ 的得分；
$x_{1,B-Person} ,x_{2,I-Person},x_{3,O},x_{4,B-Organization},x_{5,O}$ 都是从BiLSTM的输出得到的；
对于 $x_{0,START}和x_{6,END}$ ，我们可以将他们设为0。