条件随机场的三个基本问题

最新推荐文章于 2023-06-03 01:38:44 发布

XP-Code

最新推荐文章于 2023-06-03 01:38:44 发布

阅读量904

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/Wisimer/article/details/99720264

版权

ML 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

一、条件随机场的概率计算问题

条件随机场的概率计算问题描述：给定 linear-CRF的条件概率分布P(y|x), 在给定输入序列x和输出序列y时，计算条件概率 $P(Y_i=y_i|x)$ 和 $P(Y_{i-1}=y_{i-1}, Y_i=y_i|x)$ 以及对应的期望。

回顾一下HMM，当时解决这个问题使用的是前向算法／后向算法。这里类似，对每个位置 i =0,1,…,n+1 ，定义前向向量 $\alpha_i(x)$ ：

$\alpha_0(y|x)=\begin{cases}1, & y=start\\0, & otherwise\end{cases}$
$\alpha_i(y_i|x)=\sum_{y_{i-1}}\alpha_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x),\quad i=1,2,...,n+1$

$\alpha_i(y_i|x)$ 的含义是在位置 i 的标记 $Y_i=y_i$ 且从起始位置到位置 i 的局部标记序列的非规范化概率，这个递推式子可以直观地把 $M_i(y_{i-1},y_i|x)$ 理解为“转移概率”，求和号表示对 $y_{i-1}$ 的所有可能取值求和。写成矩阵的形式就是下式： $\boldsymbol\alpha_i^{\top}(x)=\boldsymbol\alpha_{i-1}^{\top}(x)M_i(x)$ 。这里的 $\alpha_i(x)$ 是 m 维列向量，因为每个位置的标记都有 m 种可能取值，每一个维度都对应一个 $\alpha_i(y_i|x)$ 。

类似地，可以定义后向向量 $\beta_i(x)$ ：
$\beta_{n+1}(y_{n+1}|x)=\begin{cases}1, & y_{n+1}=stop\\0, & otherwise\end{cases}$
$\beta_i(y_i|x)=\sum_{y_{i+1}}M_{i+1}(y_{i},y_{i+1}|x)\beta_{i+1}(y_{i+1}|x),\quad i=0,1,...,n$

$\beta_i(y_i|x)$ 的含义是在位置 i 的标记 $Y_i=y_i$ 且从位置 i+1 到位置 n的局部标记序列的非规范化概率。写成矩阵的形式就是： $\boldsymbol\beta_i^{\top}(x)=M_{i+1}(x)\boldsymbol\beta_{i+1}(x)$ 。

另外，规范化因子 $Z(x)=\boldsymbol\alpha^{\top}_n(x)\boldsymbol 1=\boldsymbol 1^{\top}\boldsymbol\beta_1(x)$ 。这里的 $\boldsymbol 1$ 是元素均为1的m维列向量。

1. 概率值的计算

给定一个CRF模型，那么 $P(Y_i=y_i|x), P(Y_{i-1}=y_{i-1},Y_i=y_i|x)$ 可以利用前向向量和后向向量计算这两个概率值分别为:

$P(Y_i=y_i|x)=\frac{\alpha_i(y_i|x)\beta_i(y_i|x)}{Z(x)}$

$P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{\alpha_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}$

2. 期望值的计算

(1) 特征函数 $f_k$ 关于条件分布 P(Y|X) 的期望：

$\begin{aligned}\mathbb E_{P(Y|x)}[f_k]&=\sum_{y}P(Y=y|x)f_k(y,x)\\&=\sum_{y}P(Y=y|x)\sum_{i=1}^{n+1} f_k(y_{i-1},y_i,x,i)\\&=\sum_{i=1}^{n+1}\sum_{y_{i-1}y_i}f_k(y_{i-1},y_i,x,i)P(Y_{i-1}=y_{i-1},Y_i=y_i|x)\\&=\sum_{i=1}^{n+1}\sum_{y_{i-1}y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\end{aligned}$

(2) 特征函数 $f_k$ 关于联合分布 P(X,Y) 的期望

这里假设已知边缘分布 P(X) 的经验分布为 $\widetilde P(X)$ ，经验分布就是根据训练数据，用频数估计的方式得到 $\widetilde P(X=x)=\frac{\#x}{N}$ 。

$\begin{aligned}\mathbb E_{P(X,Y)}[f_k]&=\sum_{x,y}P(x,y)f_k(y,x)\\&=\sum_x\widetilde P(x)\sum_{y}P(Y=y|x)\sum_{i=1}^{n+1} f_k(y_{i-1},y_i,x,i)\\&=\sum_x\widetilde P(x)\sum_{i=1}^{n+1}\sum_{y_{i-1}y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\end{aligned}$

对于给定的观测序列 x 和标记序列 y ，通过一次前向扫描计算 $\alpha_i$ 及 $Z (x)$ ，一次后向扫描计算 $\beta_i$ ，进而计算所有的概率值，以及特征的期望。

二、条件概率最大的输出序列预测问题(解码问题)

条件概率最大的输出序列预测问题描述：给定 linear-CRF的条件概率分布P(y|x),和输入序列x, 计算使条件概率最大的输出序列y*。类似于HMM，使用维特比算法可以很方便的解决这个问题。

1. linear-CRF模型维特比算法解码思路
之前已经提到可以将条件随机场用向量w和F(x,y)的内积表示：
$P_w(y|x)=\frac{exp(w \cdot F(y,x))}{Z_w(x)}$

要求的使条件概率最大的输出序列y*满足：
$\begin{aligned} y^* &= \arg \ \max_{y} P_w(y|x)\\ &= \arg\ \max_{y} \frac{exp(w \cdot F(y,x))}{Z_w(x)}\\ &= \arg\ \max_{y} {\ \exp(w \cdot F(y,x))}\\ &= \arg\ \max_{y} {(w \cdot F(y,x))}\\ \end{aligned}$

于是，条件随机场的预测问题成为求非规范概率最大的最优路径问题
$\max_{y}(w \cdot F(y,x)) \tag{2.1.1}$

这里，路径表示标记序列，其中：
$w=(w_1, w_2,...,w_K)^T$
$F(y,x)=(f_1(y,x), f_2(y,x),...,f_K(y,x))^T$
$f_k(y,x)=\sum\limits_{i=1}^n f_k(y_{i-1},y_i,x,i), \ i=1,2,...,K$

注意这里只要求非规范化概率，为了求解最优路径，将式(2.1.1)改写为：
$\max_y \sum_{i=1}^n(w \cdot F_i(y_{i-1},y_i,x))$
其中， $F_i(y_{i-1},y_i,x)=(f_1(y_{i-1},y_i,x,i),f_2(y_{i-1},y_i,x,i),...,f_K(y_{i-1},y_i,x,i))^T$ 表示局部特征向量。

2. linear-CRF模型维特比算法流程

现在我们总结下 linear-CRF模型维特比算法流程：

输入：模型的特征向量F(y,x)，和对应的K维权重向量w。观测序列 $x=(x_1,x_2,...x_n)$ ,可能的标记个数m
输出：最优标记序列 $y^* =(y_1^*,y_2^*,...y_n^*)$

(1) 初始化

首先求出位置 1 的各个标记j=1,2,…,m的非规范化概率:

$\delta_{1}(j) =w \cdot F(y_0=start,y_1=j,x) = \sum\limits_{i=1}^nw_if_i(y_{0} =start,y_{1} = j,x,i)\},\; j=1,2,...m$

$\Psi_{1}(j) = start, \;j=1,2,...m$

注意这里默认构造了一个start节点。　　　　
　　　　
(2) 对于i=2, 3, …,n,进行递推

求出位置 i 的各个标记j=1,2,…,m的非规范化概率，同时记录非规范化概率最大值的路径:

$\delta_{i}(l) = \max_{1 \leq j \leq m}\{\delta_{i-1}(j) + \sum\limits_{i=1}^nw_if_i(y_{i-1} =j,y_{i} = l,x,i)\}\;, l=1,2,...m$

$\Psi_{i}(l) = arg\;\max_{1 \leq j \leq m}\{\delta_{i-1}(j) + \sum\limits_{i=1}^nw_if_i(y_{i-1} =j,y_{i} = l,x,i)\}\; ,l=1,2,...m$

注意这里的 $\delta_{i-1}(j)$ 是要对所有可能的m个比较做比较。

(3) 终止

$\max_y(w \cdot F(y,x))=\max_{1 \leq j \leq m}\delta_n(j)$

$y_n^* = arg\;\max_{1 \leq j \leq m}\delta_n(j)$

(4) 回溯

$y_i^* = \Psi_{i+1}(y_{i+1}^*)\;, i=n-1,n-2,...1$

最终得到最优标记序列 $y^* =(y_1^*,y_2^*,...y_n^*)$

3. linear-CRF模型维特比算法实例

假设输入的都是三个词的句子，即 $X=(x_1, x_2, x_3)$ ,输出的词性标记为 $Y=(y_1,y_2,y_3)$ ,其中 $\in \{1(名词), 2(动词)\}$ 。此外，设局部特征函数 $t_k$ 、节点特征函数 $s_l$ 和对应的权重 $\lambda_k,\mu_k$ 如下（这里只标记出取值为1的特征函数）：
$t_1 =t_1(y_{i-1} = 1, y_i =2,x,i), \;\;i =2,3,\;\;\lambda_1=1$
$t_2 =t_2(y_1 = 1, y_2 =1,x,2),\;\;\lambda_2=0.5$
$t_3 =t_3(y_2 = 2, y_3 =1,x,3),\;\;\lambda_3=1$
$t_4 =t_4(y_1 = 2, y_2 =1,x,2),\;\;\lambda_4=1$
$t_5 =t_5(y_2 = 2, y_3 =2,x,3),\;\;\lambda_5=0.2$
$s_1=s_1(y_1=1,x,1),\mu_1=1$
$s_2=s_2(y_i=2,x,i),\;\;i=1,2,\;\;\mu_2=0.5$
$s_3=s_3(y_i=1,x,1),\;\;i=2,3,\;\;\mu_3=0.8$
$s_4=s_4(y_3=2,x,1),\;\;\mu_4=0.5$

求最可能的输出标记序列 $y^*=(y_1^*,y_2^*,y_3^*)$ 。

答：

利用维特比算法求解最优路径问题： $\max \sum\limits_{i=1}^3 w \cdot F_i(y_{i-1},y_i,x)$ ，注意这里3是序列长度，对于某个位置i，在求 $\sum\limits_{i=1}^3 w \cdot F_i(y_{i-1},y_i,x)$ 的时候要把节点特征函数和局部特征函数都要加起来。

(1) 初始化

i=1 : $\delta_1(j)=w \cdot F_1(y_0=start,y_1=j,x),\ j=1,2,...,m$
$\delta_1(1)=\sum\limits_{i=1}^3w_if_i(y_o=1,y_1=1,x)=\mu_1*s_1=1$
$\delta_1(2)=\sum\limits_{i=1}^3w_if_i(y_o=1,y_1=2,x)=\mu_2*s_2=0.5$

(2) 递推

i=2 : $\delta_2(l)=\max\limits_j\{\delta_1(j)+w\cdot F_2(j,l,x)\}=\max\limits_j\{\delta_1(1)+w\cdot F_2(1,l,x),\ \delta_1(2)+w\cdot F_2(2,l,x)\}$
$\delta_2(1)=\max\limits_j\{\delta_1(j)+w\cdot F_2(j,l,x)\}=\max\{1+\lambda_2*t_2+\mu_3*s_3,0.5+\lambda_4*t_4+\mu_3*s_3\}=2.4$
$\Psi_2(1)=1$
$\delta_2(2)=\max\limits_j\{\delta_1(j)+w\cdot F_2(j,l,x)\}=\max\{1+\lambda_1*t_1+\mu_2*s_2,0.5+\mu_2*s_2\}=2.5$
$\Psi_2(2)=1$

i=3 : $\delta_3(l)=\max\limits_j\{\delta_2(j)+w\cdot F_3(j,l,x)\}=\max\limits_j\{\delta_2(1)+w\cdot F_3(1,l,x),\ \delta_2(2)+w\cdot F_3(2,l,x)\}$
$\delta_3(1)=\max\{2.4+\mu_5*s_5,2.5+\lambda_3*t_3+\mu_3*s_3\}=4.3$
$\Psi_3(1)=2$
$\delta_3(2)=\max\{2.4+\lambda_1*t_1+\mu_4*s_4,2.5+\lambda_5*t_5+\mu_4*s_4\}=3.9$
$\Psi_3(2)=1$

【原书《统计学习方法》有误，见勘误】

(3) 终止

$\max\limits_y(w\cdot F(y,x))=\max \ \delta_3(l)=\delta_3(1)=4.3$

$y_3^*=\arg\ \max\limits_l(\delta_3(l))=1$

(4) 回溯

$y_2^*=\Psi_3(y_3^*)=\Psi_3(1)=2$
$y_1^*=\Psi_2(y_32*)=\Psi_2(2)=1$

所以最终求出的最优标记序列是 $y^*=(y_1^*,y_2^*,y_3^*)=(1,2,1)$

三、条件随机场模型参数学习问题

条件随机场模型参数学习问题描述：给定训练数据集X和Y，学习linear-CRF的模型参数 $w_k$ 和条件概率 $P_w(y|x)$ ，这个问题的求解比HMM的学习算法简单的多，普通的梯度下降法，拟牛顿法都可以解决。

条件随机场模型实际上是定义在时序数据上的对数线形模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。（其中，主流的CRF软件之CRF++采用了拟牛顿法+L-BFGS优化，所以着重看这种训练方法即可。）

已知训练数据集，由此可知经验概率分布 $\widetilde P(X,Y)$ 可以通过极大化训练数据的对数似然函数来求模型参数。

训练数据 ${(x^{(j)},y^{(j)})\}_{j=1}^N$ 的对数似然函数为:

$\begin{aligned}L(\textbf w)=L_{\widetilde P}(P_\textbf w) &=\ln\prod_{j=1}^NP_{\textbf w}(Y=y^{(j)}|x^{(j)})\\ &=\sum_{j=1}^N\ln P_{\textbf w}(Y=y^{(j)}|x^{(j)})\\ &=\sum_{j=1}^N\ln \frac{\exp\sum_{k=1}^Kw_kf_k(y^{(j)},x^{(j)})}{Z_{\textbf w}(x^{(j)})}\\ &=\sum_{j=1}^N\biggl(\sum_{k=1}^Kw_kf_k(y^{(j)},x^{(j)})-\ln Z_{\textbf w}(x^{(j)})\biggr)\\ &=\sum_{j=1}^N\sum_{k=1}^K w_kf_k(y_j,x_j)-\sum_{j=1}^N\ln Z_{\textbf w}(x_j)\\ \end{aligned}$