机器学习理论《统计学习方法》学习笔记：第十一章条件随机场（CRF）

最新推荐文章于 2022-11-17 16:29:48 发布

紫芝

最新推荐文章于 2022-11-17 16:29:48 发布

阅读量483

点赞数 1

分类专栏：统计学习方法文章标签：人工智能机器学习 HMM

本文链接：https://blog.csdn.net/qq_40507857/article/details/109907218

版权

统计学习方法专栏收录该内容

10 篇文章 8 订阅

订阅专栏

第十一章条件随机场（CRF）

摘要
1 概率无向图模型
2 条件随机场的定义与形式
3 条件随机场的概率计算问题
- 前向-后向算法
总结
参考文献

摘要

条件随机场（CRF）是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。
条件随机场可以用于不同的预测问题，本文仅讨论在标注问题的应用。主要讲述线性链（Linear Chain）条件随机场，此时问题为由输入序列对输出序列预测的判别模型，形成对数线性模型，其学习方法通常是极大似然估计或正则化的极大似然估计。

1 概率无向图模型

概率无向图模型（Probabilistic Undirected Graphical Model），又称马尔可夫随机场（Markov Random Field）是一个可以由无向图表示的联合概率分布。

1.1 概率无向图模型定义

图（Graph）是由结点（Node）及连接结点的边（Edge）组成的集合。结点和边的集合分别记作V和E，图记作 $G = (V, E)$ .
概率图模型是由图表示的概率分布。设有联合概率分布 $P (Y)$ ，无向图 $G = (V, E)$ 表示概率分布 $P (Y)$ ，即在图G中，结点 $v\in V$ 表示一个随机变量 $Y_v$ ；边 $e\in E$ 表示随机变量之间的概率依赖关系。
给定一个联合概率分布 $P (Y)$ 和表示它的无向图 $G$ 。首先定义无向图表示的随机变量之间存在的成对马尔可夫性、局部马尔可夫性、全局马尔可夫性。

（1）成对马尔可夫性：设 $u$ 和 $v$ 是无向图 $G$ 中任意两个没有边连接的结点，结点 $u$ 和 $v$ 分别对应随机变量 $Y_u$ 和 $Y_v$ ，其他所有结点为 $O$ 对应的随机变量为 $Y_O$ 。成对马尔可夫性是指给定随机变量组 $Y_O$ 的条件下，随机变量 $Y_u$ 和 $Y_v$ 是条件独立的，即
$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$

在这里插入图片描述

在这里插入图片描述
（3）全局马尔可夫性：设结点集合A，B是在无向图G中被结点集合C分开的任意结点集合。全局马尔可夫性是指给定随机变量组 $Y_C$ 条件下，随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的。
$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$

在这里插入图片描述

概率无向图模型
设有联合概率分布 $P (Y)$ ，由无向图 $G = (V, E)$ 表示，在图 $G$ 中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 $P (Y)$ 满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型，或马尔可夫随机场。

1.2 概率无向图模型的因子分解

团与最大团
无向图 $G$ 中任何两个结点均有边连接的结点子集称为团（clique）若C是无向图G的一个团，并且不能再加进任何一个G的结点使其成为一个更大的团，则称此C为最大团。

在这里插入图片描述
由两个结点组成的团有5个： ${y_1, y_2\},\{y_1, y_3\},\{y_2, y_3\},\{y_2, y_4\},\{y_3, y_4\}$ ；
由三个结点组成的团有2个（最大团）： ${y_1,y_2,y_3\},\{y_4,y_2,y_3\}$
${y_1,y_2,y_3,y_4\}$ 不是一个团，因为 $y_1$ 和 $y_4$ 没有边连接。

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，成为概率无向图的因子分解。

给定概率无向图模型，设其无向图为G，C为G上的最大团， $Y_C$ 表示C对应的随机变量。那么概率无向图模型的概率分布 $P (Y)$ 可写作图中所有最大团C上的函数，即：
$P(Y)={1\over Z}\prod_C \Psi_C(Y_C)$
其中，Z是规范化因子（Normalization Factor），由式
$Z=\sum_Y\prod_C\Psi_C(Y_C)$
给出。
规范化因子保证P(Y)构成一个概率分布。函数 $\Psi_C(Y_C)$ 称为势函数（potential function）这里要求势函数是严格正的，通常定义为指数函数。
$\Psi_C(Y_C)=exp\{-E(Y_C)\}$
概率无向图模型的因子分解的因子分解由下面定理来保证。

Hammersley-Clifford定理
概率无向图模型的联合概率分布 $Y_C$ 可以表示为如下形式：
$P(Y)={1\over Z}\prod_C \Psi_C(Y_C)$
$Z=\sum_Y\prod_C\Psi_C(Y_C)$
其中，C是无向图的最大团， $Y_C$ 是C的结点对应的随机变量， $\Psi_C(Y_C)$ 是C上定义的严格正函数，乘积是在无向图所有的最大团上进行的。

1.3 D-划分

在模式识别中，使用概率模型时，条件独立性起着重要的作用。条件独立性简化了模型的结构，降低了模型的训练和推断的计算量。在有向图中，判断一个图是否条件独立的方法是D-划分。

在一个有向图中，A，B，C是任意无交集的结点集合。从A中任意结点到B中任意结点的所有可能的路径，如果存在以下两种情况，则表示A到B的路径被阻断：

路径上的箭头以头到尾或者尾到尾的方式交汇于这个结点，且这个结点在集合C中。
箭头以头到头的方式交汇于这个结点，且这个结点和它的所有后继都不在集合C中。

如果所有的路径都被“阻隔”，那么我们说C把A从B中d-划分开，且图中所有变量上的联合概率分布将会满足A ⊥B | C（其中⊥表示独立，式子表达为在给定C的条件下是否满足A独立于B）。

在这里插入图片描述
我们定义以下这个箭头“→”为“tail→head”，以上图为例，因为结点与两个箭头的尾部相连，所以该图为“tail-tail”也就是概念中的尾到尾的方式，这样的⼀个连接，结点A和结点B的路径的存在使得结点相互依赖。然而，当我们以结点C为条件时，被用作条件的结点“阻隔”了从A到B的路径，使得A和B变得（条件）独⽴了。根据D-划分的概念，若C被观测，则路径被堵塞。也就是说，A ⊥B | C，给定条件C的情况下，A和B条件独立。D划分的概念并不是通过假定或猜想得到的，它得出是有理论依据的，主要依据贝叶斯网络和因子分解进行计算，具体的推导呢，在这里就不再多赘述。

1.4 马尔可夫随机场在图像中的应用

在实际图像应用中，马尔科夫随机场应用十分广泛，在图像降噪、图像分割、纹理合成等领域都有涉及。下面我们举一个图像分割的栗子，来说明图像分割中MRF的应用。

图像其实就是一个典型的马尔科夫随机场，因为在图像中每个像素点和周围的点都有或多或少的联系，和距离远的点没有关系，与周围像素点的关系最大。正如下图所示，该图中的每个像素对应一个结点，每个结点之间存在关联。当我们进行图像分割时，我们只需要知道每个像素点的分类标签，当然就可以很好地对图片进行分割了。从聚类角度讲，就是一个图像聚类问题，把具有相同性质的像素点设置为一类。也就是一个标签分类问题，比如把一副图像分割成4类，那么每一个像素点必定属于这四类中的某一类，假设四类为1，2，3，4类，L=4,那么分割就是给每个像素点找一个标签类。

在这里插入图片描述
根据贝叶斯公式 $P(Y|X)={{P(X|Y)P(Y)}\over{P(X)}}$ .
假设待分割图像是S，其大小是 $m\times n$ ，图像中的像素点为 $\in S$ ，W为分割的结果，假设图像分为四类： $W_1,W_2,W_3,W_4$ ，可以得出：
$P(W|S)={{P(S|W)P(W)}\over{P(S)}}$
其中 $P (W)$ 为先验概率， $P (S ∣ W)$ 为条件概率， $P (S ∣ W)$ 为给定 $W$ 条件下得到 $S$ 的概率，W为观察值，S就是隐马尔可夫随机场中包含的概率转移链。

同时 $P (S ∣ W)$ 是 $P (W ∣ S)$ 的似然函数，似然函数用来描述已知随机变量输出结果时，未知参数的可能取值。例如，对于一枚正反对称的硬币上抛10次这样的事件，我们可以问硬币落地时十次都是正面向上的概率是多少；而对于一枚硬币上抛10次，落地都是正面向上这样的事件，我们可以问，这枚硬币正反面对称的似然程度是多少？我们的任务是求 $P (W ∣ S)$ ，根据输入图像得到分类信息，而 $P (S ∣ W)$ 则是知道了分类信息去求这个分类信息表示的像素点的概率，表示我们分好类的各个像素点和真实的像素点分布是否匹配的关系。

$P (S)$ 是我们输入图像的分布，是一个确定的值，不需要再进行计算和求解。问题就转化为

$P (S ∣ W)$ 是我们要求 $P (W ∣ S)$ 的似然函数。
$P (W)$ 是这个模型的先验概率。
通过计算以上两点来计算我们所要求的 $P (W ∣ S)$

首先，我们给每个像素点设定类别标签，然后求每个像素点是标签L的概率，初始标签是可以随机给定的，也可以使用聚类算法进行预处理，那么如何体现马尔可夫随机场呢？

马尔可夫随机场告诉我们像素之间的关联性，也就是说究竟这个像素跟周围那些像素相关，关联度为多少？我们可以根据像素点之间的领域分类情况得出该像素点是否需要更新。但在实际计算中往往只是计算这个像素点周围标记信息的次数来判断这个像素点属于哪个分类标记，通过Hammersley-cilfford定理我们可以看出，吉布斯分布和马尔可夫随机场是等价的，也就是说可以用求图像Gibbons随机场的概率P代替 $P (W)$ 。吉布斯分布的公式如下：
$P(W)=z^{-1}exp(-{1\over T}U_2(W))$

所以只要吉布斯分布的能量函数确定了，那么马尔可夫随机场也就确定了。所以 $P (W)$ 可以通过吉布斯分布的势能函数去计算。而求 $P (S ∣ W)$ 即利用标记信息去估计这个像素点的值，假设某个类的标记分类中的像素点分布满足高斯分布，就可以根据某一像素点的值判断它在哪个分类中。

$P (S ∣ W)$ 就是已知分类标签，那么它的像素值（灰度）是S的概率，现在就假设W=1，某个像素点灰度为S，表示的意思就是在第一类里面像素灰度为S的概率。因为分类标签在前面说到，每次迭代的时候有一个分类标签，可以把属于第一类的所有点都挑出来，考虑每个点都是独立的，并且认为每一类里面的所有点服从高斯分布，那么在每一类里面可以根据这一类里面的这些点建立一个属于这一类的高斯密度函数。

在这里插入图片描述
为此可以得到每一个点的 $P(s|W_1),P(s|W_2),P(s|W_3),P(s|W_4)$ 分布，通过计算每一个点属于4类的概率，得到最大似然函数，然后通过乘以 $P (W)$ 得到的概率越大，所属的类别的可能性越高。这样就完成了以此迭代，所有的点属于的类别更新一遍，在这个新的类标签下进行下一次迭代。

2 条件随机场的定义与形式

2.1 条件随机场的定义

条件随机场是给定随机变量X条件下，随机变量Y的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场。线性条件随机场可以用于标注等问题。在条件概率模型 $P (Y ∣ X)$ 中，Y是输出变量，表示标记序列，X是输入变量，表示需要标注的观测序列，也把标记序列称为状态序列。

条件随机场
设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图 $G = (V, E)$ 表示的马尔可夫随机场，即
$P(Y_v|X,Y_w,w\neq v)=P(Y_v|X,Y_w,w \sim v)$
对任意结点v成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。式中 $\sim v$ 表示在图 $G = (V, E)$ 中与结点v有边连接的所有结点w， $\neq v$ 表示结点v以外的所有结点， $Y_v,Y_u,Y_w$ 为结点 $v, u, w$ 对应的随机变量。

在定义中，并没有要求X和Y具有相同的结构。现实中，一般假设X和Y有相同的图结构。

线性链条件随机场
设
$X=(X_1,X_2,\cdots,X_n),Y=(Y_1,Y_2,\cdots,Y_n)$
均为线性链表示的随机变量序列，若在给定随机变量序列X的条件下，随机变量序列Y的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性：
$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_{n})=P(Y_i|X,Y_{i-1},Y_{i+1})$
$i=1,2,\cdots,n(在i=1和n时只考虑单边)$
则称 $P (Y ∣ X)$ 为线性链条件随机场。在标注问题中，X表示输入观测序列，Y表示对应的输出标记序列或状态序列。

2.2 条件随机场的参数化形式

线性链条件随机场的参数化形式
设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量X取值为x的条件下，随机变量Y取值为y的概率的条件概率具有如下形式：
$P(y|x)={1\over{Z(x)}}exp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_l s_l(y_i,x,i))$
$Z(x)=\sum_yexp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_l s_l(y_i,x,i))$
式子中， $t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值， $Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。
在这里插入图片描述

在这里插入图片描述

2.3 条件随机场的简化形式

条件随机场式中同一特征在各个位置都有定义，可以对同一特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式，即条件随机场的简化形式。

若以 $w$ 表示权值向量，即 $w=(w_1,w_2,\cdots,w_k)^T$
以 $F (y, x)$ 表示全局特征向量，即 $F(y,x)=(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T$
则条件随机场可以写成向量 $w$ 与 $F (y, x)$ 内积的形式： $P_w(y|x)={{exp(w\cdot F(y,x))}\over{Z_w(x)}}$
其中， $Z_w(x)=\sum_yexp(w\cdot F(y,x))$

2.4 条件随机场的矩阵形式

3 条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 $P (Y ∣ X)$ ，输入序列x和输出序列y，计算条件概率 $P(Y_i=y_i|x),P(Y_{i-1}=y_{i-1},Y_i=y_i|x)$ 以及相应的数学期望的问题。为了方便起见，像隐马尔可夫模型那样，引入前向-后向向量，递归地计算以上概率及期望值。这样的算法称为前向-后向算法。

前向-后向算法

对每个指标 $i=0,1,\cdots,n+1$ ，定义前向向量 $\alpha_i(x)$
$\alpha_0(y|x)= \begin{cases} 1,& y=start\\ 0,& otherwise \end{cases}$
递推公式为 $\alpha_i^T(x)=\alpha_{i-1}^T(x)M_i(x)$

$\alpha_i(y_i|x)$ 表示在位置i的标记是 $y_i$ 并且从1到i的前部分标记序列的非规范化概率， $y_i$ 可取的值有m个，所以 $\alpha_i(x)$ 是m维列向量。

对每个指标 $i=0,1,\cdots,n+1$ ，定义前向向量 $\beta_i(x)$
$\beta_{n+1}(y_{n+1}|x)= \begin{cases} 1,& y_{n+1}=stop\\ 0,& otherwise \end{cases}$
递推公式为 $\beta_i(x)=M_{i+1}(x)\beta_{i+1}(x)$

$\beta_i(y_i|x)$ 表示在位置i的标记是 $y_i$ ，并且从i+1到n的后部分标记序列的非规范化概率。

总结

概率无向图模型是由无向图表示的联合概率分布。无向图上的结点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性，即马尔可夫性。因此，概率无向图模型也称为马尔可夫随机场。概率无向图模型或马尔可夫随机场的联合概率分布，可以分解为无向图最大团上的正值函数的乘积的形式。
条件随机场是给定输入随机变量X条件下，输出随机变量Y的条件概率分布模型，其形式为参数化的对数线性模型。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型，即马尔可夫随机场。条件随机场是判别模型。
线性链条件随机场是定义在观测序列与标记序列上的条件随机场。线性链条件随机场一般表示为给定观测序列条件下的标记序列的条件概率分布，由参数化的对数线性模型表示。模型包含特征及相应的权值，特征是定义在线性链的边与结点上的。线性链条件随机场模型的参数形式是最基本的形式，其他形式是其简化与变形，参数形式的数学表达式是
$P(y|x)={1\over Z(x)}exp(\sum_{i,k}\lambda_k t_k(y_i-1,y_i,x,i)+\sum_{i,l}u_l s_l(y_i,x,i))$
其中，
$Z(x)=\sum_y exp(\sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_l s_l(y_i,x,i))$
线性链条件随机场的概率计算通常利用前向-后向算法。
条件随机场的学习方法通常是极大似然估计或正则化的极大似然估计法。即在给定训练数据下，通过极大化训练数据的对数似然函数估计模型参数，具体算法有改进的迭代尺度算法、梯度下降算法、拟牛顿法。
线性链条件随机场的一个重要应用是标注。维比特算法是给定观测序列求条件概率最大的标记序列的方法。