分词算法模型学习笔记(二)——MEMM

最新推荐文章于 2025-04-14 09:37:20 发布

烧煤的快感

最新推荐文章于 2025-04-14 09:37:20 发布

阅读量5.2k

点赞数 3

分类专栏：机器学习文章标签：算法 nlp 机器学习自然语言处理概率论

本文链接：https://blog.csdn.net/gg_18826075157/article/details/77994767

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了最大熵马尔科夫模型（MEMM），一种改进的分词算法模型。通过对比HMM，揭示了MEMM如何解决其存在的问题，并详细介绍了MEMM的特点，包括其作为判别式模型的优势、处理多种隐藏状态的能力以及使用高效算法的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分词算法模型学习笔记(二)——MEMM

Maximum Entropy Markov Model（MEMM，最大熵马尔科夫模型）

1.HMM的存在问题

生成式模型

需要准确地计算出观测序列X和隐藏状态序列Y的联合概率，然而这会导致以下两个问题：
1. 必须计算出所有的潜在可能路径的概率值大小（然后再挑概率值最大的那一个作为最终结果）
2. 对于某些未定义的观测值（如分词问题中的未登录词）需要统一设置一个默认的概率值

缺乏灵活性

如果对于某一个观测值，它可能并非由一个隐藏状态决定的，而是两个以上的隐藏状态综合作用而产生的，那么这时HMM就无能为力了。
比如说，对于词性标注问题，可能有这么两类非互斥的隐藏状态——1.是否首字母大写、2.是否以’er’结尾。

2.MEMM的特征

①判别式模型（最大熵模型）

对于给定的观测序列X，计算出各隐藏状态序列Y的条件概率分布
这种情况下，就不需要假设观测序列中各时刻的取值相互独立，也能算出概率值（因此比HMM更加合理）

MEMM模型图示

要研究的目标函数： $P(Y|X) = \prod\limits_{t}\big[\sum\limits_{s}P_s(Y_t|X_t)\mathbb I(Y_{t-1}=s)\big]$

其中， $\mathbb I(·)$ 为指示函数，在·为真和假时分别取值为1和０

而 $P_s(Y_t|X_t) = \frac{1}{Z(X_t)}exp\big(\sum\limits_{a}\lambda_af_a(X_t,s)\big)$

其中 $\frac{1}{Z(X_t)}=\sum\limits_{s}exp\big(\sum\limits_{a}\lambda_{a}f_a(X_t,s)\big)$ 为归一化因子（很像Softmax函数）

$\lambda_a$ 为权重因子

$f_a(X_t,Y_t)$ 为特征函数

下面解释一下什么是特征函数：

特征函数

显然，此时a=< b,s>，且b为特征，s为目标状态

比如说，我们要给Usenet网站的FAQ页面的每一行文字打上标签（这些标签包括head、question、answer、tail）
然后我们有如下特征：

特征一览

对于特征函数 $f_{<begins-with-number,question>}$ ，如果它对应的权重因子 $\lambda_{<begins-with-number,question>}$ 越大说明begins-with-number→question越可信

②可以处理多种可同时出现的隐藏状态

③一些HMM的高效算法（如维特比算法）可以直接拿过来用

3.维特比算法

计算目标：

y^= a r g m a x y P (y | x)

$\hat{y} = \mathop{argmax}\limits_{y}P(y|x)$

定义局部概率 $\delta_t(s_i|x) = \mathop{max}\limits_{y_1···y_{t-1}}P(y_1,···,y_{t-1},Y_t=s_i|x_1,···,x_t)$

其含义可以解释为前ｔ个时刻中，在已经知道观测序列为 $s_1,···,x_t$ 的情况下，对于所有以 $s_i$ 结尾的隐藏状态跳转路径，最有可能的是哪个，而它的概率值就是 $\delta_t(s_i|x)$ 。
同时因为要求的是这个概率值最大的隐藏状态序列本身，而不是它的概率值，因此还需要一个回退指针变量 $\psi$ 用于记录状态的转移情况。