CRF全网最详细解读

南波湾

已于 2023-12-21 14:45:35 修改

阅读量492

点赞数 2

分类专栏：深度学习文章标签：机器学习自然语言处理人工智能神经网络

于 2023-11-16 11:41:29 首次发布

本文链接：https://blog.csdn.net/bbblllsss/article/details/134438177

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最近在做模型的时候，需要用到CRF，但是Tensorflow2里面没有相应的Layer可以使用，只能手写，所以需要先搞清楚CRF的原理。来来回回看了很多博客，发现大家写的都有些问题，比如很多文章联合概率，上来直接相加，而不是相乘，看的很迷糊。还有些文章没有考虑状态转移条件，只有分数。参考了很多文章以及CRF的论文后，决定自己总结一下，过程中有不对的地方，欢迎指正。

CRF 在 seq2seq 中的本质，其实是希望，数据在输出的过程中，不单单考虑本次的输入，同时考虑上一步的输出。例如在BIO实体标注中，输入一个字，这个字的输出是B（实体开头）、I（实体中间）、O（其他），除了要考虑当前输入的字，还要考虑上一个字的词性。下图中，输出label为 “4”，同时考虑了输入的数据 “1”，和上一步的输出数据 “4”。

在这里插入图片描述

我们将 $\color{red}{输入1 \rightarrow 输出4}$ 的概率可能性，称为 “发射分数”，暂且记为 $\color{red}{\mu _{i,y_i}}$ ，意思是第 i 个位置预测是 $y_i$ 的可能性。将 $\color{red}{上一步4 \rightarrow 当前步4}$ 的概率可能性，称为 “转移分数”，暂且记为 $\color{red}{\lambda _{y_{i-1},y_i}}$ ，意思是从位置 i-1 的状态 $y_{i-1}$ ，转移到位置 i 的状态 $y_i$ 的概率可能性。那么，知道当前位置的输入 $x_i$ ，预测当前位置的输出为 $y_i$ 的概率可以表示为 $\color{blue}{P(y_i|x_i) = \lambda _{y_{i-1},y_i} * \mu _{i,y_i}}$ ，也就是两者的联合概率。

实际情况中，转移分数的分布并不是两两结合的，有些状态下并不能够互相转换。例如在BIO中，B不能转化成B，O不能直接转化成I等。所以我们需要在转移矩阵的前面，再乘以一个固定的条件矩阵，以满足某些情况下转移概率永远为0。转移分数的条件矩阵，使用 $t_k$ 来表示，发射分数的条件矩阵，使用 $s_l$ 来表示。（很多情况下，一般不设置 $s_l$ ，猜测情况应该是因为数据的长度不唯一，所以无法确定某个位置会不会出现某种情况，干脆就不设置了。）此时，公式可以进一步调整为 $\color{blue}{P(y_i|x_i) = t_k * \lambda _{y_{i-1},y_i} * s_l * \mu _{i,y_i}}$ ，记做 $\color{red}{p_i}$ ，这里的下标 k，l 分别代表 $y_i$ 情况下 t，s 对应的限制条件。且实际机器学习中，t 和 s 应该是固定的，不参与学习过程。

在这里插入图片描述

每个 Token 的概率知道了，那么一个序列的概率为 $\color{blue}{P(Y|X) = P(y_1,y_2...y_n|x_1,x_2...x_n) = p_1 * p_2 * ... * p_n}$ 。对于此处的 P(Y|X) 我们并不关心其实际的概率大小，而且是考虑其相对大小，也就需要去除量纲，使用 softmax。我们将正确路径记为 $\color{blue}{Y_{true} = e^{t_k * \lambda _{y_{i-1},y_i}} * e^{s_l * \mu _{i,y_i}} = exp(t_k * \lambda _{y_{i-1},y_i} + s_l * \mu _{i,y_i})}$ （解决了在训练过程中，转移分数有可能是负数的情况。），所有的可能性分别记为 $Y_1 ... Y_n$ 。仍然以BIO为例，我们输入 “吃米饭”，期望输出结果为 “OBI”，但是实际输出有 3*3 = 9 种可能性。同时我们在状态上补充了开始和结束两种状态，以满足在运算时 $y_{i-1}$ 的情况。此时对于预测正确的向量，就可以转换成 $\color{blue}{P_{true} = \frac {Y_{true}} {\sum Y_n} = \frac{1}{Z} * exp( \sum \lambda_k * t_k + \sum \mu_l * s_l)}$ ，其中 $\color{blue}{Z = \sum exp( \sum \lambda_k * t_k + \sum \mu_l * s_l)}$ ，即所有可能性的加总。