CRF损失函数与Viterbi算法

最新推荐文章于 2024-01-03 16:34:17 发布

transformer_WSZ

最新推荐文章于 2024-01-03 16:34:17 发布

阅读量1.2k

点赞数

分类专栏：算法文章标签： CRF Viterbi

本文链接：https://blog.csdn.net/transformer_WSZ/article/details/115172268

版权

算法专栏收录该内容

18 篇文章 0 订阅

订阅专栏

该博客深入探讨了条件随机场（CRF）模型，重点在于其损失函数的构建和Viterbi算法的应用。CRF考虑了输出标签之间的关联性，通过发射分数和转移分数来计算序列概率。损失函数定义为负对数似然，而Viterbi算法用于寻找概率最高的标签序列，通过动态规划将时间复杂度从指数级降低到线性级。博客还介绍了如何通过反向传播和梯度下降优化模型参数。

摘要由CSDN通过智能技术生成

CRF考虑到了输出层面的关联性，如下图所示：
在这里插入图片描述

损失函数

时间步 $t$ 输出的标签值由两部分组成：

发射分数： $h(y_t;X)$
转移分数： $g(y_t;y_{t-1})$

一条路径标识为 $y_1, y_2, \dots , y_n$ 的概率为：
$P(y_1, y_2, \dots, y_n | X) = \frac{1}{Z(X)} e^{h(y_1;x)+\sum_{i=2}^{n}g(y_i;y_{i-1})+h(y_i;X)}$
其中 $Z (X)$ 为归一化因子。在 CRF 模型中，由于我们只考虑了临近标签的联系（马尔可夫假设），因此我们可以递归地算出归一化因子，这使得原来是指数级的计算量降低为线性级别。

具体来说，我们将计算到时刻 $t$ 的归一化因子记为 $Z_t$ ，并将它分为 $k$ 个部分：
$Z_t = Z_t^1 + Z_t^2 + \cdots + Z_t^k$
上式分别是截止到当前时刻 $t$ 中、以标签 $1,2,\cdots, k$ 为终点的所有路径的得分指数和。那么，我们可以递归地计算：
$\begin{array}{l} Z_{t+1}^{(1)}=\left(Z_{t}^{(1)} G_{11}+Z_{t}^{(2)} G_{21}+\cdots+Z_{t}^{(k)} G_{k 1}\right) H_{t+1}(1 \mid X) \\ Z_{t+1}^{(2)}=\left(Z_{t}^{(1)} G_{12}+Z_{t}^{(2)} G_{22}+\cdots+Z_{t}^{(k)} G_{k 2}\right) H_{t+1}(2 \mid X) \\ \vdots \\ Z_{t+1}^{(k)}=\left(Z_{i}^{(1)} G_{1 k}+Z_{t}^{(2)} G_{2 k}+\cdots+Z_{t}^{(k)} G_{k k}\right) H_{t+1}(k \mid X) \end{array}$
其中 $G_{ij} = e^{g(y_j;y_i)}, H(y_{t+1}|X)=e^{h(y_{t+1}|X)}$ ，上式简写成矩阵形式为：
$Z_{t+1} = Z_tG \otimes H_{t+1}$
为了符合损失函数的含义，将其定义为：
$-logP(y_1, y_2, \dots, y_n | X)$