条件随机场CRF（一）: 条件随机场的三种表示

最新推荐文章于 2021-02-01 21:03:03 发布

RealDuxy

最新推荐文章于 2021-02-01 21:03:03 发布

阅读量450

点赞数

分类专栏：算法机器学习自然语言处理NLP 文章标签：算法机器学习自然语言处理

本文链接：https://blog.csdn.net/weixin_42267196/article/details/108277980

版权

算法同时被 3 个专栏收录

19 篇文章 1 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

自然语言处理NLP

5 篇文章 0 订阅

订阅专栏

1. 条件随机场简述

1.1 条件随机场定义

设X,Y为两个随机变量，若由Y构成的无向图（随机变量为结点，变量之间的依赖关系为边）满足全局马尔科夫性（即构成马尔科夫随机场），即
$P(Y_v|X,Y_w:w\neq v) = P(Y_v|X,Y_w : w \sim v )$ 对有所结点v成立，则条件概率P(Y|X)为条件随机场。
理解：从左至右看就是每个结点基于图中其他结点的条件概率，等于这个结点基于他的相邻结点的条件概率。换句话说就是，每个结点的概率只与他的邻居有关。

线性链条件随机场便是给定的X,Y的长度相同（假设X={x1,x2,…,xn}, Y={y1,y2,…,yn}）是的特殊情况下的条件随机场，为方便计算，我们后面都是以线性链条件随机场为例。

2. 条件随机场的参数化形式(LinearCRF为例)

设P(Y|X)为线性链条件随机场，y,x分别为Y,X的取值，则有：
$\frac {1}{Z(x)} exp(\sum_{i,k}\lambda_k~t_k(y_{i-1},y_i,x,i) +\sum_{i,l}\mu_l~s_l(y_i,x,i))$
其中 $Z(x)=\sum_y exp(\sum_{i,k}\lambda_k~t_k(y_{i-1},y_i,x,i) +\sum_{i,l}\mu_l~s_l(y_i,x,i))$

我们一个一个来理解。CRF有两个特征：
一个特征是本身的状态, 所以我们有第一个特征函数： $s_l(y_i,x,i)$
一个特征是对前一个状态的依赖，所以我们有第二个特征函数： $t_k(y_{i-1},y_i,x,i)$

$\lambda_k ~,~\mu_l$ 显然就是每个特征函数对应的权重参数，也是我们要学习的参数。

$e x p ()$ 是一个加法乘法转换的常规操作, Z(x)是一个规范化因子，作用是限制P(y|x)为1。

3. 条件随机场简化形式

第一个特征函数为 $t_k(y_{i-1},y_i,x,i)$ ，我们叫它“转移特征”(从i-1转移到i)，设其特征数量为 $K_1$
第二个特征函数为 $s_l(y_i,x,i)$ ，我们叫它“状态特征”( i 时刻的状态), 设其特征数量为 $K_2$
总特征数量为 $K=K_1+K_2$
原来的条件随机场的参数形式有两个特征函数，现在我们将他们合并一个新的特征函数（其实就是直接concate）：
$f_k(y,x) = \sum_{i=1}^{n}f_k(y_{i-1},y_i,x,i)$
其中n为序列的长度
$f_k(y_{i-1},y_i,x,i) = \begin{cases}t_k(y_{i-1},y_i,x,i):k=1,2,...,K_1\\ s_l(y_i,x,i): k=K_1+l,~l=1,2,...,K_2\end{cases}$

相应的，权重也会合并： $w_k=\begin{cases}\lambda_k:k=1,2,...,K_1\\ \mu_l: k=K_1+l,~l=1,2,...,K_2\end{cases}$
合并后的参数和相应权重就构成了新的表达形式：
$\frac {1}{Z(x)} exp(\sum_{k=1}^{K}w_kf_k(y,x))$
其中
$Z(x)=\sum_y exp(\sum_{k=1}^{K}w_kf_k(y,x))$

我们以 $w$ 表示权重向量， $F (y, x)$ 表示全局特征向量：
$w = (w_1.w_2,...,w_K)^T$ $F(y,x)=(f_1(y,x),f_2(y,x),...,f_K(y,x))^T$
便可表达成向量内积形式，也就是我们最终的简化形式：
$P_w(y|x) = \frac{exp(w\cdot F(y,x))}{Z_w(x)} ~其中 Z_w(x)=\sum_y exp(w\cdot F(y,x))$

4. 条件随机场的矩阵形式

我们设一个线性链条件随机场 $P_w(y|x)$ ，在长度为n的标记序列y的首尾添加标记 $y_0=start,y_{n+1}=end$ ，现在我们尝试用一个m阶矩阵来表示一个x取值的可能的状态（所以m为所有y可能的取值个数）：
$M_i(x)=[M_i(y_{i-1},y_i |x)]=[exp(W_i(y_{i-1},y_i|x))]=[exp(\sum_{k=1}^Kw_kf_k(y_{i-1},y_i,x,i))]$
这是什么？
给定的观测序列x和标记序列y， $M_i(y_{i-1},y_i|x)$ 实际上是 $y_i$ 基于x的未规范化的条件概率，也不难得出序列y基于序列x的条件概率：
$P_w(y|x) = \frac {\prod ^{n+1}_{i=1} M_i(y_{i-1},y_i|x)}{Z_w(x)}$
其中 $Z_w(x)=(M_1(x)M_2(x)...M_{n+1}(x))_{start,stop}$