条件随机场(Conditional Random Field)简介

最新推荐文章于 2021-12-11 18:44:55 发布

Carl-Xie

最新推荐文章于 2021-12-11 18:44:55 发布

阅读量1.8w

点赞数 19

分类专栏：机器学习文章标签：自然语言处理条件随机场

本文链接：https://blog.csdn.net/aws3217150/article/details/68935789

版权

机器学习专栏收录该内容

10 篇文章 20 订阅

订阅专栏

条件随机场(CRF)由Lafferty等人于2001年提出，是一种判别式概率模型，在许多自然语言处理任务中比如分词，命名实体识别等表现尤为出色。本篇与lafferty原始论文相同，将着重介绍条件随机场的一种特殊形式——线性链条件随机场(Linear Chain CRF)。

为什么需要CRF

作为Motivation，我们考虑如下词性标注任务：

对于一段输入文字“The dog barks”，我们希望获得他的词性标注“The/D(冠词) dog/N(名词) barks/V(动词)"。也就是对于一段输入序列 $\vec{x}=[x_1,x_2,....,x_n]$ ,我们希望获得相应的特定任务的输出序列 $\vec{s}=[s_1,s_2,...,s_n]$ 。比如刚刚举的词性标注例子，此时 $x_n$ 将对应字典集 $\textit {V}$ 里面的词， $s_n$ 则是词性集 $\textit S$ 里面的元素

一个解决方案——MEMM

为了解决上述问题，一个解决思路是建立一个条件概率模型：
$p(\vec{s}|\vec{x})$
McCallum等人为了解决HMM模型表达能力的局限性，于2000年提出了MEMM(Maximum Entropy Markov Model)，该模型如下：
$p(\vec{s}|\vec{x}) \\=p(s_1,s_2,....,s_n|x_1,x_2,...,x_n) \\=\prod_{i=1}^{n}p(s_i|s_1,s_2,...,s_{i-1},x_1,x_2,...,x_n) \\=\prod_{i=1}^{n} p(s_i|s_{i-1}, x_1,x_2,...,x_n) \\=\prod_{i=1}^{n} \frac{exp(\vec{w}^Tf(s_i,s_{i-1},\vec{x}))}{\sum_{s'\in S}exp(\vec{w}^Tf(s',s_{i-1},\vec{x}))}$
MEMM做了一个假设，就是状态的转移仅仅依赖于上一状态(这里我将标注标签称为一种状态)。在这样的假设下，转移概率被定义为：
$p(s_i|s_{i-1}, x_1,x_2,...,x_n) \\=\frac{exp(\vec{w}^Tf(s_i,s_{i-1},\vec{x}))}{\sum_{s'\in S}exp(\vec{w}^Tf(s',s_{i-1},\vec{x}))}$
其中 $f(s_i,s_{i-1},\vec{x})$ 是特征函数，作用是将当前状态和上一状态连同输入映射为一个数值向量：
$f(s_i,s_{i-1},\vec{x}) \rightarrow R^d$
$\vec{w}$ 是权重向量，是模型的参数。通过这样定义，可以很容易求解模型参数 $\vec{w}$ ，并用viterbi算法求出该模型下的最优序列 $\vec{s}$ 。
##Label Bias Problem
MEMM虽然可以很优雅地解决上述问题，然而却存在一个重大缺点，也就是所谓的“标注偏好”问题。什么是标注偏好呢？那就是模型在为输入序列 $\vec{x}$ 打标签的时候，存在偏袒心里，会倾向于选择某些标签。且看stanford大学的一个PPT：
这里写图片描述
从图中可以观察，局部状态转移时， $s_1$ 倾向于转移到 $s_2$ ，而 $s_2$ 倾向于停留在 $s_2$ , 但是最终最好的序列却是： $s_1,s_1,s_1,s_1$ (0.40.450.5=0.09取得最大概率！)。为什么会这样呢？注意到 $s_1$ 只有两种转移状态： $s_1,s_2$ ，而 $s 2$ 有5种转移状态: $s_1,s_2,s_3,s_4,s_5$ 。对于 $s_1$ 的转移概率，由MEMM的定义，可得：
$p(s_1|s_1, \vec{x})=\frac{exp(\vec{w}^Tf(s_1,s_1,\vec{x}))}{\sum_{s'\in s_1,s_2}exp(\vec{w}^Tf(s',s_1,\vec{x}))} \\p(s_2|s_1, \vec{x})=\frac{exp(\vec{w}^Tf(s_2,s_1,\vec{x}))}{\sum_{s'\in s_1,s_2}exp(\vec{w}^Tf(s',s_1,\vec{x}))}$
而对于 $s 2$ 的转移概率计算则是：
$p(s_1|s_2, \vec{x})=\frac{exp(\vec{w}^Tf(s_1,s_2,\vec{x}))}{\sum_{s'\in s_1,...,s_5}exp(\vec{w}^Tf(s',s_2,\vec{x}))} \\p(s_2|s_2, \vec{x})=\frac{exp(\vec{w}^Tf(s_2,s_2,\vec{x}))}{\sum_{s'\in s_1,...,s_5}exp(\vec{w}^Tf(s',s_2,\vec{x}))}\\.\\.\\.\\p(s_5|s_2, \vec{x})=\frac{exp(\vec{w}^Tf(s_5,s_2,\vec{x}))}{\sum_{s'\in s_1,...,s_5}exp(\vec{w}^Tf(s',s_2,\vec{x}))}$
说明什么问题呢？因为 $s_1$ 的转移状态很少，所以不管实际训练观测值有多少，由于每一步的状态转移概率都要归一化，所以 $s_1$ 的转移概率都会被放大，而 $s_2$ 由于转移状态多，因此每一步转移概率归一化的时候都被平均分摊了。因此在计算最优序列的时候，MEMM会偏袒那些状态转移少的标签，而忽略了实际观察值，为了说明该现象，我们再举出原始论文的例子，如下图：
这里写图片描述
假设我们有一个辨别单词的状态机，对于单词rib和rob，从字母r出发分出两条边，经过i和o，最后到达b。对于MEMM，它对于一个单词 $x$ 判断是rib的概率为：
$p (r i b ∣ x) = p (r ∣ *, x) p (i ∣ r, x) p (b ∣ i, x)$
判断为rob的概率为：
$p (r o b ∣ x) = p (r ∣ *, x) p (o ∣ r, x) p (b ∣ o, x)$
注意到 $p (b ∣ i, x) = p (b ∣ o, x) = 1$ ,因为这些状态的转移都只有一条边，所以必然转移到下一个状态，那么只要训练数据中rob更加多，也就是 $p (i ∣ r, x) < p (o ∣ r, x)$ 那么在预测阶段，预测值将始终是rob，而不管实际观测值 $x$ 。
#CRF
为了解决Label Bias Problem，CRF便诞生了。首先我们必须明确MEMM产生Label Bias的根源是什么，这是因为MEMM的状态转移概率的计算方式，为了获得转移概率，它每一步的状态转移都会进行归一化，从而导致问题的产生。CRF认清了问题的根源，只要不要在每一步状态转移进行归一化，而在全局进行归一化即可：
$p(\vec{s}|\vec{x}) = \frac{exp(\vec{w}^T\Phi(\vec{s},\vec{x}))}{\sum_{\vec{s'} \in S^n}exp(\vec{w}^T\Phi(\vec{s'},\vec{x}))}$
CRF相对于MEMM做了几个改动，首先在特征函数上面做了变动：
$\Phi(\vec{s},\vec{x}) \rightarrow R^d$
它将输入序列 $\vec{x}$ 和输出标注 $\vec{s}$ 映射为一个d维实数向量，而MEMM的特征函数拥有的信息只是输入序列 $\vec{x}$ 和当前状态以及上一个状态，也就是说CRF的特征函数掌握信息量更多，从而表达能力更强。第二个的改进是它不再每一次状态转移进行归一化，而是在全局进行归一化，这样完美解决Label Bias问题。
有得必有失，注意到模型的分母需要罗列所有的状态序列，对于序列长度为 $n$ 的输入序列，状态序列的个数为 $S|^n$ ，对于这种指数增长问题，在实际应用中一般都是intractable的，只能付诸于近似求解，比如我们之前提过的Variational Bayes或者Gibbs Sampling等等。不过有一种特殊结构的CRF，精确快速求解的方式是存在的，因此在早期得以广泛应用。
##Linear Chain CRF
此处揭晓我们的主角——线性链CRF。熟悉概率图模型的同学可以一睹它的容貌：
这里写图片描述
对于这样的无向图，通过定义特征函数 $\Phi$ ，可以将原来intractable的问题变为tractable。我们来看看到底是如何定义的：
$\Phi(\vec{s},\vec{x}) = \sum_i \phi(s_{i-1},s_i,\vec{x})$
对于第 $k$ 维的特征函数值则记录为:
$\Phi_k(\vec{s},\vec{x}) = \sum_i \phi_k(s_{i-1},s_i,\vec{x})$
通过这样巧妙的定义：全局特征等于局部特征的和，一切阻碍都迎刃而解！
###参数估计
接下来我们介绍对于Linear Chain CRF如何进行参数参数估计的。假设我们有训练集 $\vec{x^1},\vec{x^2},...,\vec{x^N}$ ，对应的标注集合 $\vec{s^1},\vec{s^2},...,\vec{s^N}$ ，那么其对应的对数似然函数为：
$\sum_i^N log\ p(\vec{s^i}|\vec{x^i}) \\=\sum_i^N log\ \frac{exp(\vec{w}^T\Phi(\vec{s^i},\vec{x^i}))}{\sum_{\vec{s'} \in S^n}exp(\vec{w}^T\Phi(\vec{s'},\vec{x^i}))} \\=\sum_i^N log\ \frac{exp(\sum_k w_k\Phi_k(\vec{s^i},\vec{x^i}))}{\sum_{\vec{s'} \in S^n}exp(\sum_k w_k\Phi_k(\vec{s'},\vec{x^i}))}$
对 $w_j$ 进行求导可得：
$\frac{\partial L}{\partial w_j}=\sum_i^N\Phi_j(\vec{s^i},\vec{x^i})-\sum_i^N \frac{ \sum_{s' \in S^n}exp(\sum_k w_k\Phi_k(\vec{s'},\vec{x^i}))\Phi_j(\vec{s^i},\vec{x^i})}{\sum_{\vec{s'} \in S^n}exp(\sum_k w_k\Phi_k(\vec{s'},\vec{x^i}))} \\=\sum_i^N\Phi_j(\vec{s^i},\vec{x^i})-\sum_i^N \sum_{\vec{s'} \in S^n} p(\vec{s'}|x^i)\Phi_j(\vec{s^i},\vec{x^i})$
问题出现在上面减号的右半部分，我们单独讨论(为了记号方便，我们省去上标 $i$ )：
$\sum_{\vec{s} \in S^n} p(\vec{s}|x)\Phi_j(\vec{s},\vec{x}) \\=\sum_{\vec{s} \in S^n} p(\vec{s}|x)\sum_k \phi_j(s_{k-1},s_k, \vec{x}) \\=\sum_k \sum_{\vec{s} \in S^n} p(\vec{s}|x)\phi_j(s_{k-1},s_k, \vec{x}) \\=\sum_k \sum_{a \in S,b\in S} \phi_j(s_{k-1}=a,s_k=b, \vec{x}) \sum_{\vec{s} \in S^n, s_k=b,s_{k-1}=a} p(\vec{s}|\vec{x})$
现在问题在于对于任意 $a, b$ 我们是否能快速求解
$\sum_{\vec{s} \in S^n, s_k=b,s_{k-1}=a} p(s_1,s_2,...,s_{i-1},s_{i},...,s_n|\vec{x}) \\=\sum_{\vec{s} \in S^n, s_k=b,s_{k-1}=a} p(s_1,s_2,...,s_{k-1},s_{k},...,s_n|\vec{x})\\=p(s_{k-1}=a,s_k=b|\vec{x})$

Forward-Backward 算法

首先对于如下概率图模型：
这里写图片描述
根据定义，我们可得：
$p(\vec{s}|\vec{x}) = \frac{\psi(\vec{s},\vec{x})}{\psi(\vec{x})}=\frac{exp(\vec{w}^T\Phi(\vec{s},\vec{x}))}{\sum_{\vec{s'} \in S^n}exp(\vec{w}^T\Phi(\vec{s'},\vec{x}))}$
因此有：
$\psi(\vec{x}) = \sum_{\vec{s} \in S^n}exp(\vec{w}^T\Phi(\vec{s},\vec{x})) \\=\sum_{\vec{s} \in S^n}exp(\sum_k w_k \sum_j\phi_k(s_{j-1}, s_j,\vec{x})) \\=\sum_{\vec{s} \in S^n}exp(\sum_j\sum_k w_k \phi_k(s_{j-1}, s_j,\vec{x})) \\=\sum_{\vec{s} \in S^n}\prod_j exp(\sum_k w_k \phi_k(s_{j-1}, s_j,\vec{x}))$
对于熟悉概率图模型的同学，如果我们定义：
$\psi(s_{j-1},s_j) = exp(\sum_k w_k \phi_k(s_{j-1}, s_j,\vec{x}))$
那么 $\psi(s_{j-1},s_j)$ 就是链式CRF图模型的一个因子， $s_{j-1},s_j$ 是其最大clique。因此：
$\psi(\vec{x}) = \sum_{s_1}\sum_{s_2}...\sum_{s_n}\prod_{j=1}^{n+1} \psi(s_{j-1},s_j) \\=\sum_{s_1}\sum_{s_2}...\sum_{s_n} \psi(s_0=*,s_1) \psi(s_1,s_2) ...\psi(s_{n-1},s_n) \psi(s_{n},s_{n+1}=STOP) \\=\big [\sum_{s_n}\psi(s_{n},STOP)\big [\sum_{s_{n-1}} \psi(s_{n-1},s_{n}) ...\big [\sum_{s_1}\psi(s_{1},s_2) \big [\psi(*,s_1) \big ]...\big]$
如果定义
$\alpha( s_k)=\big [\sum_{s_{k-1}}\psi(s_{k-1},s_{k})\big [\sum_{s_{k-2}}\psi(s_{k-2},s_{k-1})... \big [\sum_{s_1}\psi(s_{1},s_2)\psi(*,s_1) \big ]...\big]$
则容易得到如下动态规划方程：
$\alpha(s_{k})=\sum_{s_{k-1}}\psi(s_{k-1},s_{k})\alpha(s_{k-1})$
因此有：
$\psi(\vec{x})=\alpha(s_{n+1})=\sum_{s_{n}}\psi(s_{n},STOP)\alpha(s_{n})$
该动态规划方程便是forward阶段，其初始值定义为：
$\alpha(s_1)=\psi(*,s_1)$
若用程序实现，伪代码如下：

# n为序列x的长度
for s in S:
	alpha(1,s) = psi(*,s)
for(m = 2; m <= n; m++):
	for s in S:
		for s' in S:
			alpha(m, s) += psi(s', s) * alpha(m-1, s')
for s in S:
	alpha(n+1, STOP) += psi(s, STOP) * alpha(n, s)

类似的有：
$\psi(\vec{x}) = \sum_{s_1}\sum_{s_2}...\sum_{s_n}\prod_{j=1}^{n+1} \psi(s_{j-1},s_j) \\=\sum_{s_1}\sum_{s_2}...\sum_{s_n} \psi(*,s_1) \psi(s_1,s_2) ...\psi(s_{n-1},s_n) \psi(s_{n},STOP) \\=\big [\sum_{s_1}\psi(*,s_1)\big [\sum_{s_2} \psi(s_1,s_2) ...\big [\sum_{s_{n-1}}\psi(s_{n-2},s_{n-1}) \big [\sum_{s_n}\psi(s_{n-1},s_n)\psi(s_{n},STOP) \big ]...\big]$
如果定义
$\beta( s_k)=\big [\sum_{s_{k+1}}\psi(s_{k},s_{k+1})...\big [\sum_{s_{n-1}}\psi(s_{n-2},s_{n-1}) \big [\sum_{s_n}\psi(s_{n-1},s_n)\psi(s_{n},STOP) \big ]...\big]$
则容易得到如下动态规划方程：
$\beta(s_{k-1})=\sum_{s_{k}}\psi(s_{k-1},s_{k})\beta(s_k)$
因此有：
$\psi(\vec{x})=\beta(s_0)=\sum_{s_{1}}\psi(*,s_{1})\beta(s_1)$
该动态规划方程便是backward阶段，其初始值定义为：
$\beta(s_{n})=\psi(s_{n},STOP)$
伪代码实现如下：

＃n为序列x的长度
for s in S:
	beta(n, s) = psi(s, STOP)
for(m = n-1; m >= 1; m--):
	for s in S:
		for s' in S:
			beta(m, s) += psi(s, s') * beta(m+1, s')
for s in S:
	beta(0, *) = psi(*, s) * beta(1, s)

有上述的动态规划方程，我们可以很方便求解 $\alpha,\beta$ 所对应的各个值。
对于 $\alpha,\beta$ ,现在我们考察发现：
$\frac{\alpha(s_k)\beta(s_k)}{\psi(\vec{x})} \\=\big [\sum_{s_{k-1}}\psi(s_{k-1},s_{k})\big [\sum_{s_{k-2}}\psi(s_{k-2},s_{k-1})... \big [\sum_{s_1}\psi(s_{1},s_2)\psi(*,s_1) \big ]...\big]\\*\big [\sum_{s_{k+1}}\psi(s_{k},s_{k+1})...\big [\sum_{s_{n-1}}\psi(s_{n-2},s_{n-1}) \big [\sum_{s_n}\psi(s_{n-1},s_n)\psi(s_{n},STOP) \big ]...\big]/\psi(\vec{x}) \\=\frac{\sum_{s_1}\sum_{s_2}...\sum_{s_{k-1}}\sum_{s_{k+1}}...\sum_{s_n}\prod_j \psi(s_{j-1},s_j,\vec{x})}{\psi(\vec{x})} \\=p(s_k|\vec{x})$
也既是：
$p(s_k|\vec{x})=\frac{\alpha(s_k)\beta(s_k)}{\psi(\vec{x})}$
同理可得：
$p(s_{k-1},s_k|\vec{x})=\frac{\alpha(s_{k-1})\psi(s_{k-1},s_{k})\beta(s_k)}{\psi(\vec{x})}$
由于能高效求出 $\alpha,\beta$ ,边缘概率 $p(s_{k-1},s_k|\vec{x})$ 也可高效求出，那么我们可以精确高效地求出梯度！
只要能快速求解梯度，接下来我们就可以利用SGD或者L-BFGS对CRF进行快速参数估计。

序列推断(Inference)

现在模型参数估计已经知道如何求解了，接下来就是对于一个新的输入序列 $\vec{x}$ ，如何推测最优的标注序列：
$\arg\max_{\vec{s}\in S^n} p(\vec{s}|\vec{x})$
首先考虑：
$\arg\max_{\vec{s}\in S^n} \ p(\vec{s}|\vec{x}) \\=\arg\max_{\vec{s}\in S^n} \frac{exp(\vec{w}^T\Phi(\vec{s},\vec{x}))}{\sum_{\vec{s'} \in S^n}exp(\vec{w}^T\Phi(\vec{s'},\vec{x}))} \\=\arg\max_{\vec{s}\in S^n} exp(\vec{w}^T\Phi(\vec{s},\vec{x})) \\=\arg\max_{\vec{s}\in S^n} \vec{w}^T\Phi(\vec{s},\vec{x}) \\=\arg\max_{\vec{s}\in S^n} \vec{w}^T(\sum_i \phi(s_{i-1},s_i, \vec{x})) \\=\arg\max_{\vec{s}\in S^n} \sum_i\vec{w}^T\phi(s_{i-1},s_i,\vec{x})$

Viterbi算法

同样可以利用动态规划快速求解，我们首先定义一个动态规划表格 $\pi(n,s)$ ，其含义是，以 $s$ 结尾长度为 $n$ 的最优序列，所谓的最优序列就是使得 $\sum_i\vec{w}^T\phi(s_{i-1},s_i, \vec{x})$ 取得最大值。则其递推方程如下：
$\pi(n,s)=\max_{s'\in S}\{\pi(n-1,s')+\vec{w}^T\phi(s',s,\vec{x})\}$
如果我们为每个训练数据加上人造初始状态 $s_0$ ，那么该动态规划方程的初始解为：
$\pi(1,s_1)=\vec{w}^T\phi(*,s_1,\vec{x})$
其为代码如下：

for s in S:
	pi(1, s) = w.dot(phi(*, s, x))

for(m = 2; m <= n; m++):
	for s in S:
		maxVal = -Infinity
		best = null
		for s' in S:
			val = pi(m-1, s') + w.dot(phi(s', s, x))
			if val > maxVal:
				maxVal = val
				best = s'
		pi(m, s) = maxVal
		bPtr(m, s) = best

maxVal = -Infinity
for s in S:
	val = pi(n, s) + w.dot(phi(s, STOP, x))
	if val > maxVal:
		bPtr(m+1,STOP) = s

因此我们可以非常迅速求解CRF的推断问题，而这样的动态规划解也被成为viterbi算法。
#参考引用
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
Log-Linear Models, MEMMs, and CRFs
The Forward-Backward Algorithm
Conditional random field PPT
Log-linear models and conditional random fields
PRML第8章《Graphical Models》
PRML第13章《Sequential Date》