隐含马尔科夫模型(HMM)原理及其实现

最新推荐文章于 2024-07-19 12:31:07 发布

mlee1018

最新推荐文章于 2024-07-19 12:31:07 发布

阅读量1k

点赞数 1

分类专栏： nlp 文章标签：隐含马尔科夫模型 HMM NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Recall_Tomorrow/article/details/78439395

版权

nlp 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

隐含马尔科夫模型（Hidden Markov Model）

公式推导

$s_1,s_2,\cdots,s_n\ = \ \underbrace{Arg}_{s_1,s_2,\cdots,s_n\in S}\ Max\ P(s_1,s_2,\cdots,s_n|o_1,o_2,\cdots,o_n)\ \ \ \ \ \cdots\cdots①$

注： $S$ 为所有可能的源信息， $o_1,o_2,\cdots,o_n$ 是接受到的观测信息

我们可以将①式利用贝叶斯公式来间接计算：

$P (s 1, s 2, \dots, s n | o 1, o 2, \dots, o n) = P ( o 1 , o 2 , \dots , o n | s 1 , s 2 , \dots , s n ) \cdot P ( s 1 , s 2 , \dots , s n ) P ( o 1 , o 2 , \dots , o n ) = k \cdot P (o 1, o 2, \dots, o n | s 1, s 2, \dots, s n) \cdot P (s 1, s 2, \dots, s n) \dots \dots ②$ $P(s_1,s_2,\cdots,s_n|o_1,o_2,\cdots,o_n)\ = \ \frac{P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\cdot P(s_1,s_2,\cdots,s_n)}{P(o_1,o_2,\cdots,o_n)}\ =\ k\cdot P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\cdot P(s_1,s_2,\cdots,s_n)\ \ \ \ \ \cdots\cdots②$

对于②式我们可以利用隐含马尔科夫模型(Hidden Markov Model)来估计。

P (o 1, o 2, \dots, o n | s 1, s 2, \dots, s n) = \prod t = 1 n P (o t | s t) \dots \dots ③

$P(o_1,o_2,\cdots,o_n|s_1,s_2,\cdots,s_n)\ = \ \prod_{t=1}^{n}P(o_t|s_t)\ \ \ \ \ \ \cdots\cdots③$

P (s 1, s 2, \dots, s n) = \prod t = 2 n P (s t | s t - 1) \dots \dots ④

$P(s_1,s_2,\cdots,s_n)\ =\ \prod_{t=2}^{n}P(s_t|s_{t-1})\ \ \ \ \cdots\cdots④$

这样，有③和④两式就求解了②式

HMM的训练

要利用隐含马尔科夫模型解决实际问题，那么我们必须事先知道它的参数，即要知道由前一个状态 $S_{t-1}$ 进入当前状态 $S_t$ 的概率 $P(S_t|S_{t-1})$ ，称之为转移概率（Transition Probability），以及每个状态 $S_t$ 产生相应输出 $O_t$ 的概率 $P(O_t|S_t)$ ，称之为生成概率（Generation Probability），得到这些参数的过程就是模型的训练

$P(O_t|S_t)\ =\ \frac{P(O_t,\ S_t)}{P(S_t)}\ \ \ \cdots\cdots⑤$ $P(S_t|S_{t-1})\ = \ \frac{P(S_{t-1},\ S_t)}{P(S_{t-1})}\ \ \ \cdots\cdots⑥$

现在如果有足够多的人工标记数据，那么我们可以知道经过状态 $S_t$ 有多少次记为#( $S_t$ )，以及经过这个状态而产生的输出 $O_t$ 的次数，就可以知道有多少次#( $S_t,\ O_t$ )，那么上式⑤就为，

$P(O_t|S_t)\ \approx\ \frac{\#(S_t,\ O_t)}{\#(S_t)}$

而这种数据集均是有标记的，因此为有监督的训练方法(Supervised Training)，而对于式⑥我们直接利用统计语言模型 $P(\omega_i|\omega_{i-1})\ \approx\ \frac{\#(\omega_{i-1},\ \omega_i)}{\#(\omega_{i-1})}$ 即可得到

另外，如果我们仅仅通过大量观测到的信号 $O_1,O_2,\cdots,O_n$ 来计算(估计)模型参数，这种就为无监督的训练方法(Unsupervised Training)，而这就要提到鲍姆-韦尔奇算法（Baum-Welch Algorithm）
- 两个不同的HMM可以产生同样的信号 O1,O2,⋯,On ，因此仅仅通过观测信号来推断产生它的HMM，这样就会可能有多个HMM适合，但是总会有一个模型参数 Mθ2 要比另一个 Mθ1 更加可能产生这个观测到的输出，而鲍姆-韦尔奇算法就是找到这个最有可能的参数 Mθ^
  1. 我们找到一组能够产生输出序列 $O_1,O_2,\cdots,O_n$ 的一组模型参数，记为 $M_{\theta0}$
  2. 由这个初始模型，接着利用Forward-Backward算法得到由某个可能的输入 $S_1,S_2,\cdots,S_n\in S$ 产生 $O_1,O_2,\cdots,O_n$ 的概率 $P(O_1,O_2,\cdots,O_n|M_{\theta0})$ ，以及利用维特比算法(Viterbi Algorithm)得出那个最可能产生这个输出 $O_1,O_2,\cdots,O_n$ 的状态序列，以及产生 $O_1,O_2,\cdots,O_n$ 过程中所有可能路径及其概率，这样就可以得到新的模型参数 $M_{\theta1}$ ,至此完成了一次迭代，可以证明 $P(O_1,O_2,\cdots,O_n|M_{\theta1}) > P(O_1,O_2,\cdots,O_n|M_{\theta0})$
  3. 接着继续按照步骤2的过程迭代，直到模型质量不再明显提高为止
- 值得一提的是，鲍姆-韦尔奇算法每一次迭代就是不断的估计新的HMM参数，而使得 $O_1,O_2,\cdots,O_n$ 的概率达到最大化，这个过程被称之为期望值最大化(Expectation-Maximization)过程，但是EM过程只能保证收敛到一个局部最优解，而不能找打全局最优解，因此在相关的NLP的应用中，如词性标注(Part-of-Speech tagging)，往往会使用人工标记数据这种有监督的训练方法，因为它能够收敛于全局最优解。当然，如果我们的目标函数为一个凸函数(只有一个最优点)，这种情况EM过程就能找到最价值。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄10年

57
原创

99
点赞

262
收藏

36
粉丝

关注

私信

热门文章

分类专栏

golang 1篇
数据结构 21篇
java 5篇
c-c++ 2篇
剑指Offer 11篇
Linux 3篇
git
python 2篇
nlp 2篇
ML 15篇

最新评论

golang并发（同步）多任务高性能执行&聚合
CSDN-Ada助手: 不知道 Go 技能树是否可以帮到你：https://edu.csdn.net/skill/go?utm_source=AI_act_go
RNN(LSTM)数据形式及Padding操作处理变长时序序列dynamic_rnn
CSDN-Ada助手: 非常感谢您分享关于RNN(LSTM)数据形式及Padding操作处理变长时序序列dynamic_rnn的博客，我觉得这是一个非常实用的技术，对其他用户也会有很大的帮助。下一篇博客建议可以继续写关于RNN的相关技术，比如“使用RNN(LSTM)进行文本分类”，这是一个非常热门的话题，相信会吸引更多读者前来阅读。期待您更多的优质内容！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
三个字符串s1, s2, s3, 现要求你判断s3是否由s1和s2交错组成的
杨缘一: 为什么for循环不从1开始遍历？
java实现登录窗口(含验证码验证、账户注册等)
mlee1018: 包名
java实现登录窗口(含验证码验证、账户注册等)
zzzbel: i了i了拯救作业人

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。