分词算法模型学习笔记(三)——CRF

最新推荐文章于 2021-10-02 20:37:10 发布

烧煤的快感

最新推荐文章于 2021-10-02 20:37:10 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：算法 nlp 自然语言处理概率论分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gg_18826075157/article/details/77998243

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

分词算法模型学习笔记(三)——CRF

Conditional Random Fields（CRF，条件随机场）

1.MEMM的存在问题

标注偏置

所谓的标注偏置就是更偏向于选择分支较少的路径，而不是全局概率更大但分支更多的真正正确路径。

CRF模型图示

如上图所示，虽然对于观测序列 $x_1,x_2,x_3$ 来说，隐藏状态序列 $s_0,s_1,s_2,s_3$ 和 $s_0,s_1,s_4,s_3$ 的出现频率会更高，但最后MEMM仍会选择分支较少的 $s_0,s_5,s_6,s_3$

问题的根源在于MEMM中的概率值只在局部做归一化，所以容易陷入局部最优。

2.CRF的特征

继承了MEMM的优点

同样是判别式模型，同样适用于多种非互斥隐藏变量同时存在的情况

克服了MEMM的标注偏置问题

由于所有的概率值均由全局归一化得出，因此可以得到真正的全局最优解

一些HMM的高效算法（如维特比算法）可以直接拿过来用

这里写图片描述

3.HMM和CRF之间的联系

HMM和CRF之间的联系

4.维特比算法

计算目标：

$\hat{y} = \mathop{argmax}\limits_{y}P(y|x) = \mathop{argmax}\limits_{y}\big[\sum\limits_{t,i}\lambda_if_i(Y_{t-1},Y_t,X,t)+\sum\limits_{t,j}\mu_jg_j(Y_{t},X,t)\big]$

定义两个局部概率

$h_t(Y_{t-1},Y_t,X) = \sum\limits_i\lambda_if_i(Y_{t-1},Y_t,X,t)+\sum\limits_j\mu_jg_j(Y_{t},X,t)$

$\delta_k(x,s_l) = \mathop{max}\limits_{y_1···y_{k-1}}\big[\sum\limits_{t=1}^{k-1}h_t(y_{t-1},y_t,x)+h_k(y_{k-1},s_l,x)\big]$

同时因为要求的是这个概率值最大的隐藏状态序列本身，而不是它的概率值，因此还需要一个回退指针变量 $\psi$ 用于记录状态的转移情况。

算法步骤：

定义局部概率的初始值（边界值）

δ 1 (x, s l) = h 1 (s S, s l, x)

$\delta_1(x,s_l) = h_1(s_S,s_l,x)$

利用状态转移方程迭代计算当k=1,···,T-1时的局部概率值

δ k + 1 (x, s l) = m a x s m [δ k (x, s m) + h k + 1 (s m, s l, x)]

$\delta_{k+1}(x,s_l) = \mathop{max}\limits_{s_m}[\delta_k(x,s_m)+h_{k+1}(s_m,s_l,x)]$

ψ k (x, s l) = a r g m a x s m [δ k (x, s m) + h k + 1 (s m, s l, x)]

$\psi_{k}(x,s_l) = \mathop{argmax}\limits_{s_m}[\delta_k(x,s_m)+h_{k+1}(s_m,s_l,x)]$

利用计算好了的局部概率值，确定回退起点

y T^= a r g m a x s m δ T (x, s m)

$\hat{y_T} =\mathop{argmax}\limits_{s_m}\delta_T(x,s_m)$

利用回退指针变量 $\psi$ ，逐个确定目标序列(t = T-1,···,1)

y t^= ψ t (x, y t + 1^)

$\hat{y_t} =\psi_t(x,\hat{y_{t+1}})$

烧煤的快感

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。