CRF条件随机场

lzk_nus

已于 2022-01-27 16:25:14 修改

阅读量1.2k

点赞数

分类专栏： Machine Learning NLP 文章标签：算法机器学习语音识别

于 2022-01-08 00:03:10 首次发布

本文链接：https://blog.csdn.net/qq_42791848/article/details/122373178

版权

NLP 同时被 2 个专栏收录

37 篇文章 6 订阅

订阅专栏

Machine Learning

22 篇文章 13 订阅

订阅专栏

有向图和无向图

在正式进入Linear CRF的介绍之前，我们先来看一下有向图和无向图之间的区别

有向图

我们之前介绍了HMM模型，HMM模型就是一个有向图模型

在这里插入图片描述

如图，我们来看一下如何计算有向图的联合概率分布
$p (a, b, c, d, e) = p (a ∣ b) p (c ∣ b, d, e) * p (b) p (d) p (e)$
很简单，只需要根据依赖关系即可。

无向图

我们需重点来看一下无向图，因为Linear CRF就是一个无向图模型。

在这里插入图片描述

如图所示，就是一个无向图，我们也来考虑如何计算它的条件概率分布。无向图模型中没有像有向图中一样的依赖关系，因此我们要自己定义一种计算方式。

团和极大团

在无向图模型中，我们定义一个概念叫做团(clique)，每个团内部的节点必须是两两相连的，比如上图中的a,b,e就是一个团。

极大团的定义是，如果在当前的团中再加入任意一个节点都不构成团，那么这个团就是极大团。

势函数

对于每个团，我们定义一个或多个势函数 $f$ ，也可以叫做feature function，这些势函数就是用来描述这个团的特征。我们要求每个团的势函数必须是正值，因此，我们得到每个团的势函数为
$\phi(x_1,x_2...x_n)=exp(\sum_{i}w_if_i)$
有了上面两个概念，我们就可以计算无向图中的联合概率分布。无向图的联合概率分布是根据图中所有的极大团进行定义的，以上图为例
$p(a,b,c,d,e)=\frac{1}{Z}\phi(a,b,e)\phi(b,c,e)\phi(c,d,e)$
其中，Z是一个归一化项，也叫做partition function， $Z=\sum_{a,b,c,d,e}\phi(a,b,e)\phi(b,c,e)\phi(c,d,e)$

有向图与无向图的联系

在这里插入图片描述

这张图对于理解HMM和CRF以及有向图和无向图帮助很大。横向比较可以看出，HMM实际上就是朴素贝叶斯模型在时间维度上的展开，而Linear CRF模型就是逻辑回归模型在时间序列上的展开；纵向比较可以看出，有向图模型通常与生成模型相关，而无向图模型通常与判别模型相关(当然，没有绝对性的关系)。

MEMM

MEMM实际上是HMM和CRF之间的一个小插曲。首先来说一下HMM的缺点：HMM在预测当前状态时只能看到当前时刻以及之前的观测序列信息，而实际上，比如在词性标注任务中，我们同样也需要当前时刻之后的信息。于是，MEMM模型被设计出来

在这里插入图片描述

如图所示，MEMM模型实际上是将箭头方向改变，并对条件概率进行建模，转化为判别模型。

但这个模型存在一个严重的问题就是label bias problem，简言之，就是由于局部归一化导致的预测偏差问题，在这里我们不做过多解释了。

Linear-Chain CRF

Linear-Chain CRF叫做线性链条件随机场，是一个无向图、判别式模型。我们首先来介绍Log Linear Model。

Log Linear Model

顾名思义，log linear model就是取完log以后是线性函数的模型，它的标准定义是
$p(y|x;w)=\frac{exp\sum_{j=1}^mw_jF_j(x,y)}{Z(x;w)}$
其中， $F_i(x,y)$ 就是我们的feature function， $w$ 是模型参数。feature function定义的不同可以得到不同的模型，logistic regression就是log linear model，我们首先来看多元逻辑回归是怎么得到的。

多元逻辑回归

定义 $F_j(x,y)=x_iI(y=c)$ ，其中 $I (y = c)$ 是一个indicator function，取值为0/1。下面我们通过一个例子来理解多元逻辑回归。

假设我们有三个类别1、2、3，特征向量 $x\in{R^d}$ 。

当前的y=1时：
$F_j(x,y)=x_j(1\le{j}\le{d})$

$F_j(x,y)=0(d\lt{j}\le{3d})$

当前的y=2时：
$F_j(x,y)=x_j(d\lt{j}\le{2d})$

$F_j(x,y)=0(1\lt{j}\le{d},2d\lt{j}\le{3d})$

当前的y=3时：
$F_j(x,y)=x_j(2d\lt{j}\le{3d})$

$F_j(x,y)=0(1\lt{j}\le{d},d\lt{j}\le{2d})$

因此，我们将模型的参数分成三个部分，即：
$w^{(1)}=(w_1,w_2......w_d)$

$w^{(2)}=(w_{d+1},w_{d+2}......w_{2d})$

$w^{(3)}=(w_{2d+1},w_{2d+2}......w_{3d})$

于是，原来的条件概率分布我们就可以写作
$p(y=1|x;w)=\frac{e^{w^{(1)}x}}{\sum_{i=1}^{3}e^{w^{(i)}x}}$

$p(y=2|x;w)=\frac{e^{w^{(2)}x}}{\sum_{i=1}^{3}e^{w^{(i)}x}}$

$p(y=3|x;w)=\frac{e^{w^{(3)}x}}{\sum_{i=1}^{3}e^{w^{(i)}x}}$

这就是多元的逻辑回归，而这个形式刚好就是我们的softmax函数。

条件随机场

条件随机场也是log linear model的一种，只是它的feature function与多元逻辑回归不同。在之前我们讲到过，Linear CRF可以看作是逻辑回归在时间序列上的展开，而且Linear CRF的极大团其实是 $y_{i-1},y_i,x$ ，因此我们可以将feature function改写为
$exp\sum_{j=1}^mw_jF_j(x,y)=exp\sum_{j=1}^mw_j\sum_{t=2}^Tf_j(y_{t-1},y_t,x)$
我们把式子整理一下，并令 $g_t(y_{t-1},y_t)=\sum_{j=1}^mw_jf_j(y_{t-1},y_t,x)$ ，于是：
$exp\sum_{j=1}^mw_jF_j(x,y)=\sum_{t=2}^Tg_t(y_{t-1},y_t)$

参数学习

对于CRF的参数学习问题，我们可以采取梯度下降法来做，那么接下来最重要的问题就是如何计算梯度。我们写出梯度表达式
$\frac{\partial}{\partial{w_j}}logp(y|x;w)=\frac{\partial}{\partial{w_j}}log\frac{exp(\sum_{j=1}^mw_jF_j(x,y))}{Z(x;w)}$

$=\frac{\partial}{\partial{w_j}}(\sum_{j=1}^mw_jF_j(x,y)-logZ(x;w))$

$=F_j(x,y)-\frac{1}{Z(x;w)}\frac{\partial{Z(x;w)}}{\partial{w_j}}$

而我们知道 $Z(x;w)=\sum_{y^{,}}exp\sum_{j=1}^mw_jF_j(x,y^,)$ ，于是就得到：
$\frac{\partial{Z(x;w)}}{\partial{w_j}}=\sum_{y^{,}}[exp\sum_{j=1}^mw_jF_j(x,y^,)]F_j(x,y^,)$
代入上式后得到：
$=F_j(x,y)-\sum_{y^,}F_j(x,y^,)\frac{exp\sum_{j=1}^mw_jF_j(x,y^,)}{Z(x;w)}$

$=F_j(x,y)-\sum_{y^,}F_j(x,y^,)p(y^,|x;w)$

接下来，我们关注如何计算 $Z (x; w)$ ，答案还是前向后向算法

Forward Algorithm

与HMM中的前向算法类似，我们定义 $\alpha_t(v)$ 表示1~t时刻且第t时刻的标记为 $v$ 的score，则
$\alpha_{t+1}(v)=\sum_{y_1...y_t}exp(\sum_{i=2}^tg_i(y_{i-1},y_i)+g_{t+1}(y_{t},v))$

$=\sum_{y_t=u}[\sum_{y_1...y_{t-1}}exp(\sum_{i=2}^{t-1}g_i(y_{i-1},y_i)+g_{t}(y_{t-1},u))]exp(g_{t+1}(u,v))$

$=\sum_{u}\alpha_t(u)exp(g_{t+1(u,v)})$

Backward Algorithm

定义 $\beta_t(v)$ 表示t~T时刻且第t时刻的标记为 $v$ 的score，则
$\beta_t(v)=\sum_{y_{t+1}...y_T}exp(\sum_{i=t+2}^Tg_i(y_{i-1},y_i)+g_{t+1}(v,y_{t+1}))$

$=\sum_{y_{t+1}=u}[\sum_{y_{t+2}...y_{T}}exp(\sum_{i=t+3}^{T}g_i(y_{i-1},y_i)+g_{t+1}(u,y_{t+2}))]exp(g_{t}(v,u))$

$=\sum_{u}\beta_{t+1}(u)exp(g_t(v,u))$

有了前向后向算法，我们就可以计算下面三个量：

$Z(x;w)=\sum_{u}\alpha_t(u)\beta_t(u)$
$p(y_t=u|x;w)=\frac{\alpha_t^T(u)\beta_t(u)}{Z(x;w)}$
$p(y_{t-1}=u, y_t=v|x;w)=\frac{\alpha_t^T(u)exp[g_t(u,v)]\beta_t(u)}{Z(x;w)}$

那么我们将得到的式子代入梯度式子，整理化简后可以得到：
$\frac{\partial}{\partial{w_j}}logp(y|x;w)=F_j(x,y)-\sum_{t=2}^T\sum_{y_{t-1}=u}\sum_{y_t=v}f_j(u,v,x)\frac{\alpha_t^T(u)exp[g_t(u,v)]\beta_t(u)}{Z(x;w)}$

预测

预测问题和HMM模型一样，也采用Viterbi算法。定义 $\delta(t,v)$ 表示1~t时刻且第t时刻标记为 $v$ 的最大score

递推关系与前向算法类似：
$\delta(t+1,v)=\max_{y_1...y_t}exp(\sum_{i=2}^tg_i(y_{i-1},y_i)+g_{t+1}(y_{t},v))$

$=\max_{y_t=u}[\max_{y_1...y_{t-1}}exp(\sum_{i=2}^{t-1}g_i(y_{i-1},y_i)+g_{t}(y_{t-1},u))]exp(g_{t+1}(u,v))$

$\delta(t+1,v)=max_{y_t=u}\delta(t,u)exp(g_{t+1}(u,v))$

CRF的特征函数可以人工定义，现在的常用做法是用神经网络进行特征提取，然后用CRF得到输出，例如BiLSTM+CRF

lzk_nus

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CRF条件随机场

有向图和无向图在正式进入Linear CRF的介绍之前，我们先来看一下有向图和无向图之间的区别有向图我们之前介绍了HMM模型，HMM模型就是一个有向图模型如图，我们来看一下如何计算有向图的联合概率分布p(a,b,c,d,e)=p(a∣b)p(c∣b,d,e)∗p(b)p(d)p(e)p(a,b,c,d,e)=p(a|b)p(c|b,d,e)*p(b)p(d)p(e)p(a,b,c,d,e)=p(a∣b)p(c∣b,d,e)∗p(b)p(d)p(e)很简单，只需要根据依赖关系即可。无向图
复制链接

扫一扫