个人学习笔记（十三）条件随机场

最新推荐文章于 2020-04-29 21:46:21 发布

万carp

最新推荐文章于 2020-04-29 21:46:21 发布

阅读量392

点赞数

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/90370293

版权

个人学习笔记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，这里仅讨论它在标注问题的应用，因此主要讲述线性链(linear chain)条件随机场。

一、概率无向图模型

在介绍条件随机场之前，需要了解概率无向图模型。概率无向图模型(probabilistic undirected graphical model)，又称为马尔科夫随机场(Markov random field)，它由结点(node)及连接结点的边(edge)组成，表示一个联合概率分布。
概率无向图需要满足以下三种条件：成对马尔科夫性(pairwise Markov property)、局部马尔科夫性(local Markov property)和全局马尔科夫性(global Markov property)。
成对马尔科夫性：设 $u$ 和 $v$ 是无向图 $G$ 中任意两个不直接相连的结点，其他所有结点为 $O$ ，它们对应的随机变量或随机变量组为 $Y_u,Y_v,Y_O$ ，成对马尔科夫性是指给定 $Y_O$ 的条件下， $Y_u$ 与 $Y_v$ 是条件独立的，即
$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$ 局部马尔科夫性：设 $v$ 是无向图 $G$ 中任意一个节点， $W$ 是所有与 $v$ 直接相连的结点，其他所有结点为 $O$ ，局部马尔科夫性是指给定 $Y_W$ 的条件下， $Y_v$ 与 $Y_O$ 是条件独立的，即
$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)$ 全局马尔科夫性：设结点集合 $A, B$ 是在无向图 $G$ 中被结点集合 $C$ 分开的任意结点集合，全局马尔科夫性是指在给定 $Y_C$ 的条件下， $Y_A$ 与 $Y_B$ 是条件独立的，即
$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$ 如果联合概率分布 $P (Y)$ 满足成对、局部、全局马尔科夫性，就称此联合概率分布为概率无向图模型，或马尔科夫随机场。
接着，为了引出概率无向图的Hammersley-Clifford定理，先介绍团与最大团的概念。无向图 $G$ 中任何两个结点均有边连接的结点子集称为团(clique)，若不能再加进任何一个结点使其成为一个更大的团，则称此团为最大团(maximal clique)。
概率无向图模型的因子分解(factorization)，可以将联合概率分布 $P (Y)$ 写作图中所有最大团 $C$ 上的函数 $\psi_C(Y_C)$ 的乘积形式，即
$P(Y)=\frac{1}{Z}\prod_C\psi_C(Y_C)$ 其中， $Z$ 是规范化因子，有
$Z=\sum_Y\prod_C\psi_C(Y_C)$ 这便是概率无向图的Hammersley-Clifford定理，函数 $\psi_C(Y_C)$ 称为势函数(potential function)，由于要求 $\psi_C(Y_C)$ 是严格正的，通常定义为指数函数
$\psi_C(Y_C)=e^{-E(Y_C)}$

二、条件随机场的定义与形式

首先定义条件随机场，设 $X$ 与 $Y$ 是随机变量，若随机变量 $Y$ 构成一个马尔科夫随机场，即
$P(Y_v|X,Y_w,w\not= v)=P(Y_v|X,Y_w,w\sim v)$ 对任意结点 $v$ 成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场，式中 $w\sim v$ 表示与 $v$ 有边相连的所有结点 $w$ ， $w\not= v$ 表示结点 $v$ 以外的所有结点。
当 $X, Y$ 均为线性链表示的随机变量序列，如果 $P (Y ∣ X)$ 构成条件随机场，即满足马尔科夫性
$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$ 则称 $P (Y ∣ X)$ 为线性链条件随机场。
注意，上面是“ $Y$ 构成马尔科夫随机场” $\to$ “ $P (Y ∣ X)$ 为条件随机场” $\to$ “ $P (Y ∣ X)$ 是线性链条件随机场”。
根据上一节的Hammersley-Clifford定理，概率无向图的联合概率分布可以分解为最大团上势函数的乘积，对应到线性链条件随机场 $P (Y ∣ X)$ 中，其最大团均为两个结点的集合，它有两种，一种是相邻的两个 $y$ ，一种是对应的 $x$ 与 $y$ 。因此线性链条件随机场 $P (Y ∣ X)$ 在 $X$ 取值为 $x$ 的条件下， $Y$ 取值为 $y$ 的条件概率可写为
$P(y|x)=\frac{1}{Z(x)}e^{\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)}$ 其中 $Z (x)$ 是规范化因子，即
$Z(x)=\sum_ye^{\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)}$ 式中， $t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值。其中 $t_k$ 是定义在边上的特征函数，称为转移特征； $s_l$ 是定义在结点上的特征函数，称为状态特征。通常 $t_k$ 与 $s_l$ 的取值为1或0，满足特征条件时取1，否则取0。
由于势函数的形式，线性链条件随机场跟逻辑回归等一样也是对数线性模型(log linear model)。
为了表述方便，考虑将两种特征放在一起表示。设有 $K_1$ 个转移特征， $K_2$ 个状态特征，总特征数为 $K=K_1+K_2$ ，用 $f_k(y_{i-1},y_i,x,i)$ 来表述 $t_k(y_{i-1},y_i,x,i)$ 与 $s_l(y_i,x,i)$ ，则其在各个位置 $i$ 的求和记作
$f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i), k=1,2,\cdots,K$ 再用 $w_k$ 来表述权值 $\lambda_k$ 与 $\mu_l$ ，将特征与权值均用向量表示，即
$F(y,x)=(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T$ $w=(w_1,w_2,\cdots,w_K)^T$ 这样条件随机场可以写成向量 $w$ 与 $F (x, y)$ 的内积形式
$P_w(y|x)=\frac{e^{w\cdot F(y,x)}}{Z_w(x)}$ 其中
$Z_w(x)=\sum_ye^{w\cdot F(y,x)}$ 除了用向量内积表示，条件随机场还可以用矩阵形式表示。首先对每一个位置 $i=1,2,\cdots,n+1$ ，定义一个 $m$ 阶矩阵
$M_i(x)=[M_i(y_{i-1},y_i|x)]$ $M_i(y_{i-1},y_i|x)=e^{\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i)}$ 式中 $m$ 是 $y_i$ 的可取个数，这样条件概率可表示为
$P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ $Z_w(x)=(M_1(x)M_2(x)\cdots M_{n+1}(x))_{start,stop}$ $y_0=start$ 与 $y_{n+1}=stop$ 表示开始状态与终止状态。

三、条件随机场的概率计算问题

跟上一篇博客中的隐马尔可夫模型相同，条件随机场的概率计算问题是给定输入序列 $x$ 和输出序列 $y$ ，计算条件概率 $P(Y_i=y_i|x),P(Y_{i-1}=y_{i-1},Y_i=y_i|x)$ 及其相应的数学期望。同样，可以引进前向-后向向量进行递归计算，这样的算法称为前向-后向算法。
首先对初始 $i = 0$ ，定义前向向量 $\alpha_0(x)$
$\alpha_0(y|x)=\left\{\begin{array}{rcl}1,&y=start\\0,&否则 \end{array}\right.$ 接着对 $i=1,2,\cdots,n+1$ 递推，递推公式为
$\alpha_i^T(y_i|x)=\alpha_{i-1}^T(y_{i-1}|x)[M_i(y_{i-1},y_i|x)], i=1,2,\cdots,n+1$ 式中， $\alpha_i(y_i|x)$ 表示在位置 $i$ 的标记是 $y_i$ 且到位置 $i$ 的前部分标记序列的非规范化概率， $y_i$ 可取值为 $m$ 个，所以 $\alpha_i(y_i|x)$ 是 $m$ 维向量。上式又可以表示为
$\alpha_i^T(x)=\alpha_{i-1}^T(x)M_i(x)$ 再来看后向向量，先对 $i = n + 1$ 定义后向向量 $\beta_{n+1}(x)$
$\beta_{n+1}(y_{n+1}|x)=\left\{\begin{array}{rcl}1,&y_{n+1}=stop\\0,&否则\end{array}\right.$ 接着对 $i=0,1,\cdots,n$ 递推，递推公式为
$\beta_i(y_i|x)=[M_{i+1}(y_i,y_{i+1}|x)]\beta_{i+1}(y_{i+1}|x)$ 式中， $\beta_i(y_i|x)$ 表示在位置 $i$ 的标记为 $y_i$ 且从 $i + 1$ 到 $n$ 的后部分标记序列的非规范化概率。同样的，上式也可以表示为
$\beta_i(x)=M_{i+1}(x)\beta_{i+1}(x)$ 由前向-后向向量定义不难得到
$Z(x)=\alpha_n^T(x)\cdot 1=1^T\cdot \beta_1(x)$ 式中， $1$ 是元素均为1的 $m$ 维列向量。
接着，根据前向-后向向量的定义，可得
$P(Y_i=y_i|x)=\frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)}$ $P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$

四、条件随机场的学习算法

条件随机场的学习问题是估计条件随机场模型参数的问题，学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进迭代尺度法IIS、梯度下降法、拟牛顿法，这里暂时不详细介绍了。

五、条件随机场的预测算法

条件随机场的预测问题，指的是给定条件随机场 $P (Y ∣ X)$ 和输入序列 $x$ ，求条件概率最大的输出序列 $y^*$ ，这里可以类比为隐马尔科夫模型，条件随机场 $P (Y ∣ X)$ 对应模型参数 $\lambda$ ，输入序列 $x$ 对应观测序列 $O$ ，最有可能的输出序列 $y^*$ 对应最有可能的状态序列 $I^*$ 。
对于预测问题，最有可能的输出序列 $y^*$ 为
$y^*=\arg\max_yP_w(y|x)$ 根据第二节所述，条件随机场可以写成向量 $w$ 与 $F (x, y)$ 的内积形式，代入上式中得
$y^*=\arg\max_y\frac{e^{w\cdot F(y,x)}}{Z_w(x)}=\arg\max_y[w\cdot F(y,x)]$ 需要明确的是， $w$ 与 $F (y, x)$ 均是 $K$ 维向量，即
$w=(w_1,w_2,\cdots,w_K)^T$ $F(y,x)=(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T$ $f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i), k=1,2,\cdots,K$ 从上面三个式子可以看出，累加在内内积在外，如果我们把它变成累加在外内积在内， $y^*$ 的求解就可以用递推完成，这便是维特比算法。
根据上面三个式子，有
$w\cdot F(y,x)=w_1\sum_{i=1}^nf_1(y_{i-1},y_i,x,i)+w_2\sum_{i=1}^nf_2(y_{i-1},y_i,x,i)+\cdots+w_K\sum_{i=1}^nf_K(y_{i-1},y_i,x,i)$ 即
$w\cdot F(y,x)=\sum_{i=1}^n[w_1f_1(y_{i-1},y_i,x,i)+w_2f_2(y_{i-1},y_i,x,i)+\cdots+w_Kf_K(y_{i-1},y_i,x,i)]$ 如果我们令
$F_i(y_{i-1},y_i,x)=(f_1(y_{i-1},y_i,x,i),f_2(y_{i-1},y_i,x,i),\cdots,f_K(y_{i-1},y_i,x,i))^T$ 上式便可写为
$w\cdot F(y,x)=\sum_{i=1}^nw\cdot F_i(y_{i-1},y_i,x)$ 这样，就可以从 $i = 1$ 递推到 $i = n$ ，求得最优路径 $y^*=(y_1^*,y_2^*,\cdots,y_n^*)^T$ 。
具体过程是是，首先求出 $i = 1$ 的各个标记 $j=1,2,\cdots,m$ 的非规范化概率
$\delta_1(j)=w\cdot F_1(y_0=start,y_1=j,x), j=1,2,\cdots,m$ 接着递推
$\delta_i(l)=\max_{1\le j\le m}\{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)\}, l=1,2,\cdots,m$ $\psi_i(l)=\arg\max_{1\le j\le m}\{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)\}, l=1,2,\cdots,m$ 递推至 $i = n$ 后，可得最优路径的终点
$y_n^*=\arg\max_{1\le j\le m}\delta_n(j)$ 由此终点返回
$y_i^*=\psi_{i+1}(y_{i+1}^*) i=n-1,n-2,\cdots,1$ 最终求得最优路径 $y^*=(y_1^*,y_2^*,\cdots,y_n^*)^T$ 。

万carp

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
个人学习笔记（十三）条件随机场

       条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型，这里仅讨论它在标注问题的应用，因此主要讲述线性链(linear chain)条件随机场。一、概率无向图模型       在介绍条件随机场之前，需要了解概率无向图模...
复制链接

扫一扫

专栏目录