BiLSTM-CRF中CRF层解析-4_bilstm crf损失-CSDN博客

本文链接：https://blog.csdn.net/Suan2014/article/details/89477037

2.5 所有路径的总得分

上节中，我们介绍了如何计算一个路径的标签得分 $e^{S_i}$ ，那么，还有一个问题需要解决，即怎么计算所有路径的总得分： $P_{total} = P_1 + P_2 + … + P_N = e^{S_1} + e^{S_2} + … + e^{S_N}$

计算总得分最简单的方法就是：枚举所有可能的路径，然后将每条路径的得分加起来，这样虽然能实现目标，但是该方式是非常低效的，训练可能需要很久很久…

在学习下边的内容前，强烈建议你拿出草稿纸和笔，跟着示例步骤，一步一步往下走，用这种方式肯定能帮助你更好地理解算法细节，从而，你可以使用你喜欢的编程语言进行实现。

Step 1:回顾CRF损失函数
在2.3节（上一片博客）中，CRF损失函数定义如下：
$LossFunction=\frac{P_{RealPath}}{P_1+P_2+...+P_N}$

为了便于计算，我们将该损失函数改写为log损失函数，如下：
$LogLossFunction=log\frac{P_{RealPath}}{P_1+P_2+...+P_N}$

因为在训练模型时，我们通常是最小化损失函数，因此我们在上式乘以-1:
$L o g L o s s F u n c t i o n$
$=-log\frac{P_{RealPath}}{P_1+P_2+...+P_N}$
$=-log\frac{e^{S_{RealPath}}}{e^{S_1}+e^{S_2}+...+e^{S_N}}$
$log(e^{S_{RealPath}})-log(e^{S_1}+e^{S_2}+...+e^{S_N})$
$S_{RealPath}-log(e^{S_1}+e^{S_2}+...+e^{S_N})$
$=-(\sum_{i=1}^{N}x_{iy_i}+\sum_{i=1}^{N-1}t_{y_iy_{i+1}}-log(e^{S_1}+e^{S_2}+...+e^{S_N})$

在之前的章节中，我们已经知道了如何计算真实路径得分，现在我们需要找到一种有效的方法来计算 $log(e^{S_1}+e^{S_2}+...+e^{S_N})$ 。

Step2:回顾发射和转移得分
假设我们正在基于一个长度为3的句子训练模型：
$\mathbf{x} = [w_0, w_1, w_2]$
训练数据中，只有两个标签：
$LabelSet = \{l_1,l_2\}$
我们从BiLSTM层获取的发射得分结果如下表所示：

	$\mathbf{l_1}$	$\mathbf{l_2}$
$\mathbf{w_0}$	$x_{01}$	$x_{02}$
$\mathbf{w_1}$	$x_{11}$	$x_{12}$
$\mathbf{w_2}$	$x_{21}$	$x_{22}$

$x_{ij}$ 是 $w_i$ 被标记为 $l_j$ 的得分。
CRF层的转移得分如下表所示：

	$\mathbf{l_1}$	$\mathbf{l_2}$
$\mathbf{l_1}$	$t_{11}$	$t_{12}$
$\mathbf{l_2}$	$t_{21}$	$t_{22}$

$t_{ij}$ 是标签从 $i$ 到 $j$ 的转移得分。

Step3:计算（备好纸和笔 again）
提示: 我们的目标是计算 $log(e^{S_1} + e^{S_2} + … + e^{S_N})$

上式的计算是一个累加过程，其思想和动态编程相似（即使你不了解动态编程，你也可以继续，我会一步一步解释示例的，但是还是强烈推荐您去学习一下动态编程算法）， $w_0$ 所有路径的总得分计算后，要计算 $w_0 → w_1$ 的总得分，然后我们利用上述总得分计算 $w_0 → w_1 → w_2$ 的得分，该得分就是我们所需要的最终得分。
在下述步骤中，你将会看到两个变量：obs和previous，previous是先前步骤的最终结果，obs是当前单词的信息。

$w_0$ :

$obs = [x_{01}, x_{02}]$
$p r e v i o u s = N o n e$

如果该语句中仅有一个单词 $w_0$ ，我们没有之前的词的结果，所以 previous 为 None。此外，我们也只能获取到第一个单词，其信息 $obs = [x_{01}, x_{02}]$ ，其中 $x_{01}$ 和 $x_{02}$ 即上述所说的发射得分。
那么 $w_0$ 所有可能路径的总得分即为：
$TotalScore(w_0)=\log (e^{x_{01}} + e^{x_{02}})$

$w_0$ → $w_1$ :

$obs = [x_{11}, x_{12}]$
$previous = [x_{01}, x_{02}]$

1）将 previous扩展为：
$previous=(\begin{matrix} x_{01} & x_{01} \\ x_{02} & x_{02}\end{matrix})$
2）将 obs 扩展为：
$obs=(\begin{matrix} x_{11} & x_{12} \\ x_{11} & x_{12}\end{matrix})$

我们之所以这样做的原始是：矩阵可以使得所有得分计算的效率更高。

3）将 previous obs和转移得分进行相加：

$scores=(\begin{matrix} x_{01} & x_{01} \\ x_{02} & x_{02}\end{matrix})+(\begin{matrix} x_{11} & x_{12} \\ x_{11} & x_{12}\end{matrix})+(\begin{matrix} t_{11} & t_{12} \\ t_{21} & t_{22}\end{matrix})$
得到
$scores=(\begin{matrix} x_{01}+ x_{11}+t_{11} & x_{01} +x_{12}+t_{12}\\ x_{02}+x_{11}+ t_{21} & x_{02}+ x_{12}+ t_{22}\end{matrix})$

更新 previous：
$previous=[log(e^{x_{01}+x_{11}+t_{11}}+e^{x_{02}+x_{11}+t_{21}}),log(e^{x_{01}+x_{12}+t_{12}}+e^{x_{02}+x_{12}+t_{22}})]$

这样，第二轮迭代就完成了，从 $w_0 → w_1$ 的所有路径： ( $label_1$ → $label_1$ , $label_1$ → $label_2$ , $label_2$ → $label_1$ , $label_2$ → $label_2$ )，其总得分可以用下式计算：
$TotalScore(w_0 → w_1)$
$log (e^{previous[0]} + e^{previous[1]})$
$log (e^{\log(e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})}+ e^{\log(e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})} )$
$log(e^{x_{01}+x_{11}+t_{11}}+e^{x_{02}+x_{11}+t_{21}}+e^{x_{01}+x_{12}+t_{12}}+e^{x_{02}+x_{12}+t_{22}})$

这就是我们的目标 $log(e^{S_1} + e^{S_2} + … + e^{S_N})$ 。
从上式中我们可以发现

$S_1 = x_{01}+x_{11}+t_{11}$ ( $label_1$ → $label_1$ )
$S_2 = x_{02}+x_{11}+t_{21}$ ( $label_2$ → $label_1$ )
$S_3 = x_{01}+x_{12}+t_{12}$ ( $label_1$ → $label_2$ )
$S_4 = x_{02}+x_{12}+t_{22}$ ( $label_2$ → $label_2$ )

$w_0$ → $w_1$ → $w_2$ :
当你读到这里的时候，其实你已经学会了，在这次迭代中，我们知道按照上述的方式进行相同操作即可
$obs = [x_{21}, x_{22}]$
$previous=[\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}), \log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})]$

1）将previous扩展为：
$previous=\left( \begin{matrix}\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}) & \log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})\\\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})&\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})\end{matrix}\right)$
2）将obs扩展为：
$\left( \begin{matrix} x_{21} & x_{22}\\ x_{21} & x_{22} \end{matrix}\right)$
3）将 previous,obs和转移得分加起来：

$scores=\left( \begin{matrix}\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}) & \log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})\\\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})&\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})\end{matrix}\right)+\left( \begin{matrix} x_{21} & x_{22}\\ x_{21} & x_{22} \end{matrix}\right)+(\begin{matrix} t_{11} & t_{12} \\ t_{21} & t_{22}\end{matrix})$
然后：
$scores=\left( \begin{matrix}\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})+x_{21}+ t_{11} & \log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})+x_{22}+t_{12}\\\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})+x_{21}+t_{21}&\log (e^{x_{01}+x_{12}+t_{12}} +e^{x_{02}+x_{12}+t_{22}})+ x_{22}+ t_{22}\end{matrix}\right)$
更新previous:
$p r e v i o u s = [$
$\begin{matrix} \log e^{\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})+x_{21}+ t_{11}}+e^{\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})+x_{22}+t_{12}}),\\\log(e^{\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})+x_{21}+t_{21}}+e^{\log (e^{x_{01}+x_{12}+t_{12}} +e^{x_{02}+x_{12}+t_{22}})+ x_{22}+ t_{22}})\end{matrix}$
$]$
$log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{21} + t_{11}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{21} + t_{21}} ),$
$log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{22} + t_{12}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{22} + t_{22}})]$
如上所述，我们使用新更新的previous来计算总得分：
$TotalScore(w_0 → w_1 → w_2)$
$log (e^{previous[0]} + e^{previous[1]})$
$log (e^{\log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{21} + t_{11}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{21} + t_{21}} )}$
$e^{\log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{22} + t_{12}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{22} + t_{22}})} )$

$log (e^{x_{01}+x_{11}+t_{11}+x_{21}+t_{11}}+e^{x_{02}+x_{11}+t_{21}+x_{21}+t_{11}}$
$e^{x_{01}+x_{12}+t_{12}+x_{21}+t_{21}}+e^{x_{02}+x_{12}+t_{22}+x_{21}+t_{21}}$
$e^{x_{01}+x_{11}+t_{11}+x_{22}+t_{12}}+e^{x_{02}+x_{11}+t_{21}+x_{22}+t_{12}}$
$e^{x_{01}+x_{12}+t_{12}+x_{22}+t_{22}}+e^{x_{02}+x_{12}+t_{22}+x_{22}+t_{22}})$