概率图模型基础(8)——无向图模型（马尔可夫随机场-CRF的表示方法）

最新推荐文章于 2022-07-10 11:29:28 发布

EntropyPlus

最新推荐文章于 2022-07-10 11:29:28 发布

阅读量1.7k

点赞数

分类专栏：概率图模型

本文链接：https://blog.csdn.net/u012759262/article/details/100826209

版权

概率图模型专栏收录该内容

8 篇文章 9 订阅

订阅专栏

文章目录

0. 概率图模型家族族谱
1. 条件随机场的定义与形式
- 1.1 定义
2. 参考文献

0. 概率图模型家族族谱

在这里插入图片描述
与族谱中几个模型的关系：

生成模型，主要是为了计算 $P (X, Y)$
判别模型，主要是为了计算 $P (Y ∣ X)$

1. 条件随机场的定义与形式

有了马尔可夫随机场的基本知识后，来看一看它的一种典型代表：条件随机场（CRF）。

1.1 定义

首先看三种链式模型：
在这里插入图片描述
在上图中，设 $X$ 与 $Y$ 是随机变量，其中 $X$ 是观测变量， $Y$ 是目标变量（标记序列/状态序列）
其中：
（c）是我们之前提到的HMM模型。
（a）是今天的主角——CRF.中的X与Y有相同图结构的线性链条件随机场
（b）是（a）类型CRF的一个变种，也是一种条件随机场。

1.1.1 CRF随机场的定义：

设 $\boldsymbol{X}$ 和 $\boldsymbol{Y}$ 是随机变量，其中 $P(\boldsymbol{Y|X})$ 是在给定 $\boldsymbol{X}$ 的条件下 $\boldsymbol{Y}$ 的分布，如果 $\boldsymbol{Y}$ 构成了一个马尔可夫随机场，即：
$\begin{aligned} P(\boldsymbol{Y}_v|\boldsymbol{X},\boldsymbol{Y}_w,w \neq v)=P(\boldsymbol{Y}_v|\boldsymbol{X},\boldsymbol{Y}_w,w \sim v) \tag{1.1} \end{aligned}$ 在这里插入图片描述

1.1.2 线性链CRF的定义

1.1.2.1 第一种线性链CRF的定义

在这里插入图片描述
根据马尔可夫随机场-基本概念中的因子、MRF的概念，X与Y有相同图结构的线性链条件随机场的线性链条件随机场可以看作是：

1.1.2.2 线性链CRF的表达方式

1. 因子表示法

$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})=&\prod_{t=2}^{T}\phi(y_{t-1},y_t,x_t)\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \tag{1.2} \end{aligned}$

2. 参数化形式

首先要明确俩个概念：

在这里，由于涉及到状态变量与观测变量，我们把因子定义为：
$\phi(Y_{t-1},Y_t,X_t)=\phi_1(Y_{t-1},Y_t,X_t)*\phi_2i(Y_t,X_t) \tag{1.3}$
其中， $\phi_1(Y_{t-1},Y_t,X_t)$ 表示转移的操作，相当于图中的边， $\phi_2(Y_t,X_t)$ 表示状态的操作，相当于图中的点。
在马尔可夫随机场-基本概念中提到了一种很牛逼的表示法：对数表示法。

综上，我们把 $\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})$ 写成以下形式：
$\begin{aligned} \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) =&\exp(\sum_{ik}\lambda_{ik}f^{ik}_{i-1,i}(y_{i-1},y_i,x)+\sum_{il}\mu_lf^{il}_{i-1,i}(y_i,x))\\ \tag{1.4} \end{aligned}$

注：李航老师的《统计学习方法中》把特征函数定义成了以下形式，其实意思是一样的。

$t_k$ 为转移特征，对应 $f^{ik}_{i-1,i}(y_{i-1},y_i,x)$ 。取值为0或1，依赖于前一时刻、当前时刻、输入变量。
$s_l$ 为状态特征，对应 $f^{il}_{i-1,i}(y_i,x)$ 。取值为0或1，依赖于当前时刻、输入变量。
$\lambda_k$ 是 $t_k$ 的权值。
$\mu_l$ 是 $s_l$ 的权值。

设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量Y取值为 $y$ 的条件概率具有如下形式：
$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) =&\exp(\sum_{ik}\lambda_{k}t_k(y_{i-1},y_i,x,i)+\sum_{il}\mu_ls_l(y_i,x,i))\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \tag{1.5} \end{aligned}$

式中， $t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值， $Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。

举个栗子：
在这里插入图片描述
解：

$i$	$Y_{i-1}$	$Y_{i}$	$t$	$\lambda$	$s$	$\mu$
1		$Y_{1}=1$		0	$s_1$	1
2	$Y_{1}=1$	$Y_{2}=2$	$t_1$	1	$s_2$	0.5
3	$Y_{2}=2$	$Y_{3}=2$	$t_5$	0.2	$s_4$	0.5

在这里插入图片描述

3. 简化形式

这种表示法没有什么难以理解的，通俗的说就是做了一个列表的拼接。
假设有 $K_1$ 个转移特征， $K_2$ 个状态特征，总的特征记为 $K$ ，则有 $K=K_1+K_2$ 。
令
$f_k(y_{i-1},y_i,x,i)= \left\{\begin{matrix} t_k(y_{i-1},y_i,x,i) & k=1,2,...,K_1 \\ s_l(s_i,x,i) & l=K_1+l; l=1,2,...,K_2 \end{matrix}\right. \tag{1.6}$
$f_k(y_{i-1},y_i,x,i)$ 的理解：

state	$f_1(y_{i-1},y_i,x,i)$	…	$f_{K_1}(y_{i-1},y_i,x,i)$	$f_{K_1+1}(y_{i-1},y_i,x,i)$	…	$f_{K}(y_{i-1},y_i,x,i)$
	$t_1(y_{i-1},y_i,x,i)$	…	$t_{K_1}(y_{i-1},y_i,x,i)$	$s_1(y_i,x,i)$	…	$s_l(y_i,x,i)$
i=1
i=2
…
i=n

所以，有 $n$ 个状态的线性链CRF可以表示为：
$\begin{aligned} f(x,y)=\sum_{i=1}^{n}f_k(y_{i-1},y_i,x,i) , k=1,2,...,K \tag{1.7} \end{aligned}$
同样的，将转移特征与状态特征的权重也做上述类似处理有：
$w_k= \left\{\begin{matrix} \lambda_k & k=1,2,....,K_1\\ \mu_l & l=K_1+l; l=1,2,...,K_2 \end{matrix}\right. \tag{1.8}$
$w_k$ 的理解：

$w_1$	…	$w_k$	$w_{k+1}$	…	$w_K$
$\lambda_1$	…	$\lambda_{K_1}$	$\mu_1$	…	$\mu_l$

综上所述：
$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})=&\exp(\sum_{k=1}^Kw_kf_k(y,x))\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \tag{1.9} \end{aligned}$

公式(1.8)中， $w$ 表示权值向量：
$\boldsymbol{w}=(w_1,w_2,...,w_K)^T$
公式(1.8)中， $F (y, x)$ 表示全局特征向量：
$\boldsymbol{F}(y,x)=(f_1(y,x),f_x(y,x),..,f_k(y,x))^T$
所以，条件随机场写成 $\boldsymbol{w}$ 和 $\boldsymbol{F}(y,x)$ 的內积的形式有：
$\begin{aligned} P_w(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})=&\exp(\boldsymbol{w}\boldsymbol{F}(y,x))\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \tag{1.10} \end{aligned}$

4. 矩阵形式

在理解矩阵形式之前，需要换一个角度去思考：

在简化形式中，把特征表达为向量的形式。
在矩阵形式中，把状态表达为矩阵的形式。

同样的，回到CRF的定义：
$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) =&\exp(\sum_{ik}\lambda_{k}t_k(y_{i-1},y_i,x,i)+\sum_{il}\mu_ls_l(y_i,x,i))\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \tag{1.5} \end{aligned}$
对于 $\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})$ 来说，如果从每个状态转移的角度去看，会发现存在这样一个问题，那就是开始状态和结束状态二者相对于中间状态都少了一个来源和去处。因此，引入特殊的起点和终点状态标记 $y_0=start$ ， $y_1=stop$ 。

那么，就可以列举出 $n + 1$ 个转移矩阵。其中，每个转移状态所“携带的概率” 应该为所有特征函数在该状态上所有取值的和，也就是转移矩阵，记为 $W_i(y_{i-1},y_i|x)$ ，其取对数的结果记为 $M_i$ 。

$W_i(y_{i-1},y_i|x)=\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i) \tag{1.11}$
所以，另 $M_i(y_{i-1},y_i|x)$ 为：
$M_i(y_{i-1},y_i|x)=\exp(\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i)) \tag{1.12}$
则矩阵 $M_i$ 为：
$M_i(x)=[M_i(y_{i-1},y_i|x)] \tag{1.13}$
于是有：
$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) =&\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)\\ Z(\boldsymbol{X})=&(M_1(x)M_2(x)...M_{n+1}(x)) \tag{1.5} \end{aligned}$

举个栗子：

在这里插入图片描述

解答：
对于状态 $i_1,i_2,i_3$ ， $y_1,y_2,y_3$ 的取值均可以为 $1, 2$ 。

记由状态 $s t a r t$ 到状态 $i_1$ 中， $y_1=1, y_1=2$ 的概率分别为 $a_{01},a_{02}$ ，以此类推，于是有：

【机器学习】【条件随机场CRF-1】CRF的矩阵形式表示的示例讲解 + Python实现
在这里插入图片描述

解疑：为什么矩阵 $M_i$ 的连乘为 $Z(\boldsymbol{X})$ ?
矩阵 $M_i$ 其实是各个状态转移概率所构成的矩阵，在矩阵的连乘过程中，实际上完成了对所有可能的输出序列上的求和操作。
这也是上述例题第1行第1列的元素为所有路径的非规范化概率之和的原因。

1.1.2.2 第二种线性链CRF的定义（X、Y具有相同结构）

拥有 $T - 1$ 条 $Y_t-Y_{t+1}$ 条边和 $T$ 条 $Y_t-X_{t}$ 的一个条件随机场，该网络的分布表示为：
$\begin{aligned} P(\boldsymbol{Y}|\boldsymbol{X})=&\frac{1}{Z(\boldsymbol{X})}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})\\ \widetilde{P}(\boldsymbol{Y}|\boldsymbol{X})=&\prod_{t=1}^{T-1}\phi(Y_t,Y_{t+1})\prod_{t=1}^{T}\phi(Y_t,X_t)\\ Z(\boldsymbol{X})=&\sum_{\boldsymbol{Y}}\widetilde{P}(\boldsymbol{Y}|\boldsymbol{X}) \end{aligned}$