11_条件随机场CRF2_统计学习方法

最新推荐文章于 2022-04-29 19:16:48 发布

Hayden112

最新推荐文章于 2022-04-29 19:16:48 发布

阅读量371

点赞数 1

分类专栏：统计学习方法文章标签：条件随机场概率无向图模型 HMM

本文链接：https://blog.csdn.net/weixin_42432468/article/details/99905427

版权

统计学习方法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

三、条件随机场的概率计算问题
四、条件随机场的学习算法
五、条件随机场的预测算法
六、HMM与线性链条件随机场的比较

条件随机场内容较多，方便阅读，分成2个部分
上接：11_条件随机场CRF1_统计学习方法

三、条件随机场的概率计算问题

条件随机场的概率计算问题是给定条件随机场 $P (Y ∣ X)$ ，输入序列 $x\,$ 和输出序列 $y\,$ ，计算条件概率 $P(Y_i = y_i|x),P(Y_{i-1} = y_{i-1},Y_i = y_i|x)$ 以及相应的数学期望的问题。与HMM一样，需要引进前向-后向向量，递归地计算以上概率及期望值。这样的算法称为前向-后向算法。

3.1 前向-后向算法

3.1.1 前向向量

$\alpha_i(y_i|x)$ 表示在位置 $i\,$ 的标记是 $y_i$ 并且到位置 $i\,$ 的前部分观测序列的非规范化概率。
$\alpha_i(y_i|x) = P(y_i,x_1,x_2,\cdots,x_i)$
对每个指标 $i=0,1,\cdots,n+1$ ，定义前向向量 $\alpha_i(x)$ ：
$\alpha_0(y_0|x) = \begin{cases} 1, & y_0 = start \\[2ex] 0, & \text{否则} \tag{25} \end{cases}$
递推公式为
$\alpha_i^T(y_i|x) = \alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x),\,i=1,2,\cdots,n+1 \tag{26}$
又可表示为
$\alpha_i^T(x) = \alpha_{i-1}^T(x)M_i(x) \tag{27}$
$y_i$ 可取的值有 $m\,$ 个，所以 $\alpha_i(x)$ 是 $m\,$ 维列向量。

图片来源博客

3.1.2 后向向量

$\beta_i(y_i|x)$ 表示在位置 $i\,$ 的标记为 $y_i$ 并且从 $i + 1$ 到 $n\,$ 的后部分观测序列的非规范化概率。
$\beta_i(y_i|x) = P(y_i,x_{i+1},x_{i+2},\cdots,x_n)$
对每个指标 $i=0,1,\cdots,n+1$ ，定义前向向量 $\beta_i(x)$ ：
$\beta_{n+1}(y_{n+1}|x) = \begin{cases} 1, & y_{n+1}=1 \\[2ex] 0, & \text{否则} \tag{28} \end{cases}$
递推公式为
$\beta_i(y_i|x) = M_{i+1}(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x) \tag{29}$
上式与统计学习方法方法不一样，个人认为是老师下表不小心敲错了。又可表示为
$\beta_{i}(x) = M_{i+1}(x)\beta_{i+1}(x) \tag{30}$
$y_i$ 可取的值有 $m\,$ 个， $\beta_i(x)$ 是 $m\,$ 维列向量。

由前向-后向向量定义不难得到：
$\alpha_{n+1}^T(x)\cdot \bf{1} = \left(M_1(x)M_2(x)\cdots M_{n+1}(x)\right)_{start,stop} = Z(x) = \bf{1}^T \cdot\beta_1(x) \tag{31}$

$\bf{1}$ 是元素均为1的 $m\,$ 维列向量。

3.2 一些概率与期望值的计算

3.2.1 单个状态概率

标记序列在位置 $i\,$ 是标记 $y_i$ 的条件概率 $P(Y_i = y_i|x)$
$P(Y_i = y_i|x) = \dfrac{P(Y_i = y_i,x)}{P(x)} = \dfrac{P(Y_i = y_i,x)}{\sum_{Y_i} P(Y_i = y_i,x)} = \dfrac{\alpha_i^T(y_i|x) \beta_i(y_i|x)}{\sum_{Y_i} \alpha_i^T(y_i|x) \beta_i(y_i|x)} = \dfrac{\alpha_i^T(y_i|x) \beta_i(y_i|x)}{Z(x)}\tag{32}$

图片来源博客

3.2.2 两个状态的联合概率

在位置 $i - 1$ 与 $i\,$ 是标记 $y_{i-1}$ 和 $y_i$ 的条件概率 $P(Y_{i-1} = y_{i-1},Y_i = y_i|x)$

$\begin{aligned}P(Y_{i-1} = y_{i-1},Y_i = y_i|x) & = \dfrac{P(Y_{i-1} = y_{i-1},Y_i = y_i,x)}{P(x)} = \dfrac{P(Y_{i-1} = y_{i-1},Y_i = y_i,x)}{\sum_{Y_{i-1}}\sum_{Y_i}P(Y_{i-1} = y_{i-1},Y_i = y_i,x)} \\ & = \dfrac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{\sum_{Y_{i-1}}\sum_{Y_i}\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)} \\ & = \dfrac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)}\tag{33} \end{aligned}$

3.2.3 一些期望

特征函数 $f_k$ 关于条件分布 $P (Y ∣ X)$ 的数学期望是
$\begin{aligned}E_{P(Y|X)}[f_k] & = \sum_y P(y|x)f_k(y,x)\\ & = \sum_{i=1}^{n+1}\sum_{y_{i-1}\;y_i} P(y_{i-1},y_i|x) f_k(y_{i-1},y_i,x,i)\\ & = \sum_{i=1}^{n+1}\sum_{y_{i-1}\;y_i}f_k(y_{i-1},y_i,x,i)\dfrac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)},\qquad k =1,2,\cdots,K\tag{34} \end{aligned}$

假设经验分布为 $\tilde{P}(X)$ ，特征函数 $f_k$ 关于联合分布 $P (x, y)$ 的数学期望是
$\begin{aligned}E_{P(X,Y)}[f_k] & = \sum_{x,y} P(x,y)f_k(y,x)\\ & = \sum_{x}\tilde{P}(x)\sum_y P(y|x)f_k(y,x)\\ & = \sum_{x}\tilde{P}(x)\sum_{i=1}^{n+1}\sum_{y_{i-1}\;y_i} P(y_{i-1},y_i|x) f_k(y_{i-1},y_i,x,i)\\ & = \sum_{x}\tilde{P}(x)\sum_{i=1}^{n+1}\sum_{y_{i-1}\;y_i}f_k(y_{i-1},y_i,x,i)\dfrac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)},\qquad k =1,2,\cdots,K\tag{35} \end{aligned}$

式（34）、（35）是特征函数数学期望的一般计算公式；
对于转移特征 $t_k(y_{i-1},y_i,x,i),\,k=1,2,\cdots,K_1$ ，可以将式中的 $f_k$ 换成 $t_k$ ；
对于状态特征 $s_l(y_i,x,i),\,l=K_1+1,K_1+2,\cdots,K_1+K_2$ ，可以将式中的 $f_k$ 换成 $s_l$ ；
有了式（32）-（35），对于给定的观测序列 $x\,$ 与标记序列 $y\,$ ，可以通过一次前向扫描计算 $\alpha_i$ 和 $Z (x)$ ，通过一次后向扫描计算 $\beta_i$ ，从而计算所有的概率和特征的期望。

四、条件随机场的学习算法

由式（15）、（16）有如下：
$\dfrac{1}{Z(x)}exp(\sum_{k=1}^K w_k f_k(y,x))$
$\sum_y exp(\sum_{k=1}^K w_k f_k(y,x))$

给定训练数据集估计条件随机场模型参数的问题，即条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线性模型，其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。最终求得的是 $P (Y ∣ X)$ 。

梯度下降法和迭代尺度法IIS可以参见第6章LR和最大熵模型这一节内容。

在编程中求解规范化因子 $Z (x)$ 时会遇到计算指数函数的和的对数问题，为了计算不溢出可以参见计算指数函数的和的对数处理。

五、条件随机场的预测算法

条件随机场的预测问题是给定条件随机场 $P (Y ∣ X)$ 和输入序列（观测序列） $x\,$ ，求条件概率最大的输出序列（标记序列） $y^*\,$ ，即对观测序列进行标注。条件随机场的预测算法是著名的维特比算法。可以参见第10章HMM的预测求解过程。

对于第四和第五部分内容就不展开说明，使用的方法都是前面学习中遇到过的。其实在第三部分内容就基本上与第10章的第三部分内容很像，这是因为HMM是条件随机场的特例，HMM是单向的，对于标注问题而言，条件随机场是双向的，二者之间的关系就相比于LSTM与双向LSTM。下面详细比较下HMM与条件随机场。

六、HMM与线性链条件随机场的比较

模型

HMM属于概率有向图模型，线性链条件随机场属于无向图模型，看下面两张图片

上图是HMM模型，隐藏的序列只能前一个位置影响下一个位置，而下图是线性链条件随机场，前后位置是能相互影响的，也就是说linear-CRF能反映更多的关系，当然学习的参数也会更多。

策略

HMM的策略是学习联合分布，完全数据的对数似然函数作为优化目标，学习联合分布的模型称为生成模型；linear-CRF是学习 $P (Y ∣ X)$ 对数线性模型，学习条件概率的模型称为判别模型。生成模型与判别模型区别可以参见博客。

方法

根据策略不同，选择的优化方法当然也不不同。HMM使用的优化方法是EM算法，linear-CRF是对数线性模型的最优化问题，可以使用的方法很多，如：通用迭代尺度法（GIS: Generalized Iterative Scaling）、改进的迭代尺度法（IIS: Improved Iterative Scaling）、梯度下降算法、拟牛顿法（牛顿法）。

参考资料：

Hayden112

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
11_条件随机场CRF2_统计学习方法

文章目录三、条件随机场的概率计算问题3.1 前向-后向算法3.1.1 前向向量3.1.2 后向向量3.2 一些概率与期望值的计算3.2.1 单个状态概率3.2.2 两个状态的联合概率3.2.3 一些期望四、条件随机场的学习算法五、条件随机场的预测算法六、HMM与线性链条件随机场的比较模型策略方法条件随机场内容较多，方便阅读，分成2个部分上接：11_条件随机场CRF1_统计学习方法三、条件随机...
复制链接

扫一扫

专栏目录