[论文笔记]GMNN图马尔可夫网络—基础：CRF 随机向量场

最新推荐文章于 2024-06-08 09:42:21 发布

LightInk2020

最新推荐文章于 2024-06-08 09:42:21 发布

阅读量439

点赞数

分类专栏： GNN 文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.csdn.net/qianxie1/article/details/120811580

版权

GNN 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

CRF

文章目录

CRF
- 《统计学习方法》李航-CRF

《统计学习方法》李航-CRF

马尔可夫随机场

概率图模型是由图表示的概率分布。设由联合分布 $P (Y)$ ，Y是一组随机变量。由无向图 $G = (V, E)$ 表示概率分布 $P (Y)$ ，即图G中，结点 $v\in V$ 表示一个随机变量 $Y_v$ ， $Y=(Y_v)_{v\in V}$ ；边 $e\in E$ 表示随机变量之间的概率依赖关系。
如果想求联合分布 $P (Y)$ ，需要给图添加约束，更容易求得。
成对马尔可夫性/局部马尔可夫性/全局马尔可夫性本质是等价的，从不同视角看待
局部马尔可夫性
$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)\tag{1-1}$
其中，设 $v\in V$ 是无向图 $G$ 中任意一个结点，对应的随机变量是 $Y_v$ 。 $W$ 是与 $v$ 有边连接的所有的结点，对应的随机变量组是 $Y_W$ 。 $O$ 是 $v, W$ 以外的其他所有结点，对应的随机变量组是 $Y_O$ 。

即给定随机变量组 $Y_W$ 的条件下，随机变量 $Y_v$ 和 $Y_O$ 是条件独立的。
由概率乘积规则：
$P(Y_v,Y_O|Y_W)=P(Y_v|Y_O,Y_W)P(Y_O|Y_W)\tag{1-2}$
由(1-1)与(1-2)得：
$P(Y_v|Y_O,Y_W)=P(Y_v|Y_W)\tag{1-3}$
即 $Y_O$ 不影响 $Y_v$ ，只有 $Y_W$ 影响 $Y_v$
满足马尔可夫性（三个之一）的随机场 $G$ 就是马尔可夫随机场

马尔可夫随机场的因子分解

团：无向图 $G$ 中任意两个结点均有边连接的结点子集。

最大团：无向图 $G$ 中的一个团，并且不能再添加进任何一个结点使其成为一个更大的团。
（Hammersley-Clifford定理）概率无向图模型的联合概率分布：
$P(Y)=\frac{1}{Z}\prod_C\Psi_C(Y_C)$
其中 $C$ 是无向图的最大团， $Y_C$ 是 $C$ 的结点对应的随机变量；势函数 $\Psi_C(Y_C)$ 是严格正的
$\Psi_C(Y_C)=\exp(-E(Y_C))=\exp(\sum_k\lambda_kf_k{(C,y|C,x)})$
Z是规范化因子，保证 $P (Y)$ 构成一个概率分布
$Z=\sum_Y\prod_C\Psi_C(Y_C)$
乘积是在无向图所有的最大团上进行的。

含义：对一个无向图进行因子分解（即分解成多个最大团，最大团就是因子），然后无向图的联合概率分布就等于最大团的势函数的累乘除以规范因子。

条件随机场及线性链条件随机场

满足马尔可夫性的 $G$ 是马尔可夫随机场，可以表征联合分布 $P (Y)$ 而 $P (Y ∣ X)$ 就是条件随机场

设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是给定 $X$ 条件下 $Y$ 的条件概率分布，若随机变量 $Y$ 构成一个由无向图 $G = (V, E)$ 表示的马尔可夫随机场，即
$P(Y_v|X,Y_w,w\neq v)=P(Y_v|X,Y_w,w\sim v)$
对任意结点 $v$ 成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。其中， $w\sim v$ 表示在图 $G = (V, E)$ 中与结点 $v$ 有边连接的所有结点 $w$ ， $w\neq v$ 表示结点 $v$ 以外的所有结点， $Y_v$ 与 $Y_w$ 为结点 $v$ 与 $w$ 对应的随机变量。

与之前推导的： $P(Y_v|Y_O,Y_W)=P(Y_v|Y_W)$ 本质一样
线性链条件随机场
$G=(V=\{1,2,...,n\},E=\{(i,i+1)\}),i=1,2,...,n-1$
- $Y$ 中的 $Y_1,Y_2...Y_n$ 之间呈线性关系
（线性链条件随机场）设 $X=(X_1,X_2...X_n)$ , $Y=(Y_1,Y_2...Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性
$P(Y_i|X,Y_1,...,Y_{i-1},...,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})\\ i=1,2,...,n（在i=1和n时只考虑单边）$
即称 $P (Y ∣ X)$ 为线性链条件随机场。

在标注问题中，X表示输入观测序列，Y表示对应的输出标记序列或状态序列。
如果再假设 $X$ 与 $Y$ 具有相同的图结构，同时 $Y_1,Y_2...Y_n$ 分别是已知 $X_1,X_2...X_n$ 条件下得到

$Y_1--Y_2--Y_3--...--Y_n\\ |\:\:\:\:\:\:\:\:\:\:\:\:|\:\:\:\:\:\:\:\:\:\:\:\:|\:\:\:\:\:\:\:\:\:\:...\:\:\:\:\:\:\:\:\:\:|\\ X_1\:\:\:\:\:\:\:\:X_2\:\:\:\:\:\:\:\:X_3\:\:\:\:\:\:\:\:...\:\:\:\:\:\:\:\:\:X_n$

条件随机场的参数化形式

设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量 $Y$ 取值为 $y$ 的条件概率具有如下形式：
$P(y|x)=\frac{1}{Z(x)}\exp{(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i))}$
其中，
$Z(x)=\sum_y\exp{(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i))}$
$t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值， $Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的。

这是线性链条件随机场模型的基本形式，表示给定输入序列x，对输出序列y预测的条件概率。

$t_k$ 是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置。 $s_l$ 是定义在结点上的特征函数，称为状态特征，依赖于当前位置。 $t_k$ 和 $s_l$ 都依赖于位置，是局部特征函数。通常，特征函数 $t_k$ 和 $s_l$ 取值为1或0；当满足特征条件时取值为1，否则为0。条件随机场完全由特征函数 $t_k$ ， $s_l$ 和对应的权值 $\lambda_k$ 和 $\mu_l$ 确定。

由因子分解得到的 $P(Y)=\frac{1}{Z}\prod_C\Psi_C(Y_C)$ 推导得到参数化形式

条件随机场的简化形式

简化过程：
1. 将转移特征和状态特征及其权值用统一符号表示：设有 $K_1$ 个转移特征， $K_2$ 个状态特征， $K=K_1+K_2$ ，记
  $f_k(y_{i-1},y,x,i)= \begin{cases} t_k(y_{i-1},y_i,x,i),\quad k=1,2,...,K_1\\ s_l(y_i,x,i),\quad k=K_1+l;l=1,2,...,K_2 \end{cases}$
2. 对转移与状态特征在各个位置 $i$ 求和，记
  $f_k(y,x)=\sum_{i=1}^{n}f_k(y_{i-1},y,x,i),\quad k=1,2,...,K$
3. 用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即
  $w_k= \begin{cases} \lambda_k,\quad k=1,2,...,K_1\\ \mu_l,\quad k=K_1+l;l=1,2,...,K_2 \end{cases}$
4. 此时条件随机场可以表示为：
  $P(y|x)=\frac{1}{Z(x)}\exp\sum_{k=1}{K}w_kf_k(y,x)\\ Z(x)=\sum_y\exp\sum_{k=1}^{K}w_kf_k(y,x)$
5. 将其中的乘积的累加转换为内积操作
  
  即以权重向量 $w=(w_1,w_2,...,w_k)^T$ 和全局特征向量 $F(y,x)=(f_1(y,x),f_2(y,x),...,f_k(y,x))^T$ 来简化函数
6. 最终得到条件随机场简化形式：
  $P_w(y|x)=\frac{exp(w·F(y,x))}{Z_w(x)}\\ Z_w(x)=\sum_y\exp(w·F(y,x))$

条件随机场的矩阵形式

为了转换为矩阵形式，我们引入特殊的状态标记 $y_0=start, y_{n+1}=stop$
对观测序列x的每一个位置 $i = 1, 2, \dots, n + 1$ ，定义一个m阶矩阵（m是标记 $y_i$ 可以取值的个数）
$M_i(x)=[M_i(y_{i-1},y_i|x)]\\ M_i(y_{i-1},y_i|x)= \exp(W_i(y_{i-1},y_i|x))\\ W_i(y_{i-1},y_i|x)=\sum_{i=1}^{K}w_kf_k(y_{i-1},y_i,x, i)$
这样，给定观测序列x，标记序列y的非规范化概率可以通过n+1个矩阵的乘积 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示，于是，条件概率 $P_w(y|x)$ 是
$P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$
其中， $Z_w(x)$ 为规范化因子，是n+1个矩阵的乘积的(start,stop)元素:
$Z_w(x)=(M_1(x)M_2(x)…M_{n+1}(x))_{start,stop}$
注意， $y_0= start$ 与 $y_n = stop$ 表示开始状态与终止状态，规范化因子 $Z_w(x)$ 是以start为起点stop为终点通过状态的所有路径 $y_1y_2…y_n$ 的非规范化概率 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 之和。

d_{i=1}^{n+1}M_i(y_{i-1},y_i|x)
$KaTeX parse error: Can't use function '$' in math mode at position 7: 其中，$̲Z_w(x)$为规范化因子，是\dots$
Z_w(x)=(M_1(x)M_2(x)…M_{n+1}(x))_{start,stop}
$$
注意， $y_0= start$ 与 $y_n = stop$ 表示开始状态与终止状态，规范化因子 $Z_w(x)$ 是以start为起点stop为终点通过状态的所有路径 $y_1y_2…y_n$ 的非规范化概率 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 之和。

LightInk2020

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记]GMNN图马尔可夫网络—基础：CRF 随机向量场

CRF文章目录CRF李宏毅课程-CRFHMMCRF《统计学习方法》李航-CRF马尔可夫随机场马尔可夫随机场的因子分解条件随机场及线性链条件随机场条件随机场的参数化形式条件随机场的简化形式条件随机场的矩阵形式李宏毅课程-CRF处理的问题：输入是序列(sequence)XXX（X:x1、x2、...xLX: x_1 、x_2、...x_LX:x1、x2、...xL），输出是序列YYY（Y:y1、y2、...yLY: y_1 、y_2、...y_LY:y1、y2、...yL）Examp
复制链接

扫一扫

专栏目录