隐马尔科夫模型（HMM）

最新推荐文章于 2023-01-05 15:04:24 发布

行_之_

最新推荐文章于 2023-01-05 15:04:24 发布

阅读量399

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/vincent_hbl/article/details/75088998

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

模型背景

隐马尔可夫模型（HMM）来源于马尔科夫模型。马尔科夫模型中，整个系统是可观察的。但是现实中，系统分为可观察和不可观察两个部分。HMM模型将系统t时刻的状态分为了不可观测部分xt和可观测部分yt。HMM模型的状态变化如图所示：
这里写图片描述

两个基本假设

1、齐次假设
t+1时刻状态 $x_{t+1}$ 仅于t时刻状态 $x_t$ 有关，与 $x_{1...t-1}$ , $y_{1...t}$ 独立。
2、观察独立假设
t时刻观察值yt仅与对应时刻状态xt有关，与 $x_{1...t-1}$ , $y_{1...t-1}$ 独立。

三个参数值

设序列长度为T，状态取值为S = {si}，观测值取值为V = {vk}。
1、初始状态概率分布 $pi$ 。
2、状态转移概率矩阵A。

a i, j = P (x t + 1 = s j | x t = s i)

$a_{i,j} = P(x_{t+1} = s_j | x_t = s_i)$
3、符号发射概率矩阵B。

b j (k) = P (O t = v k | x t = s j)

$b_j(k) = P(O_t = v_k | x_t = s_j)$
模型的三个参数合起来记为

μ=（A,B,π） $\mu = （A, B, \pi）$

三个基本问题

1、估计问题
已知参数 $\mu$ 和观测序列y，计算序列y出现的概率。
2、序列问题
已知参数 $\mu$ 和观测序列y，估计最可能的状态变化序列X。
3、学习问题
已知观测序列Y，计算模型参数 $\mu$ 。

估计问题（动态规划！）

计算P（Y | $\mu$ ）, 可以由 $\sum_XP(Y,X | \mu)$ 。联合分布可以计算，然而求边缘分布时需要枚举状态序列X的所有排列，计算量随着序列的长度指数增长。因此该方法不适用。

展开表达式 $\sum_XP(Y,X | \mu)$ ，有：

\sum X P (Y, X | μ) = \sum X π x 1 b x 1 (O 1) \prod t = 1 T - 1 a t, t + 1 b x t + 1 (O t + 1)

$\sum_XP(Y,X | \mu) = \sum_X\pi_{x_1}b_{x_1}(O_1)\prod_{t=1}^{T-1}a_{t,t+1}b_{x_{t+1}}(O_{t+1})$
其中连乘项可以分布求和，就是依次进行

∑x1 $\sum_{x_1}$ ，

∑x2.... $\sum_{x_2}....$ ，

∑xT $\sum_{x_T}$ ，如此可以大大简化计算量。

根据该思想，就能够得到解决估计问题的方法：前向传播法。基本的思路是从t=1时刻开始，计算每个状态取值si的概率并保存起来，在计算t+1时刻状态取值sj的概率时用t时刻保存的概率计算。也就是 $P(x_{t+1} = s_j) = \sum_i P(x_t = s_i)a_{i,j}$

实际算法中，定义前向变量 $\alpha_t(i) =$ $P(O_1,O_2,...O_t,x_t = s_i)$ ，算法分为三步：
1、初始化：

α 1 (i) = π i b i (O 1), 1 \leq i \leq N

$\alpha_1(i) = \pi_ib_i(O_1), 1 \le i \le N$
2、迭代：

α t + 1 (j) = \sum i = 1 N (α t (i) a i, j) b j (O t + 1), 1 \leq t \leq T - 1

$\alpha_{t+1}(j) = \sum_{i = 1}^N(\alpha_t(i)a_{i,j})b_j(O_t+1), 1 \le t \le T-1$
3、求和终结：

P (O | μ) = \sum i = 1 N α T (i)

$P(O|\mu) = \sum_{i = 1}^N\alpha_T(i)$

学习问题（EM算法！）

由于无法观察到状态X的取值，使用EM算法，基本思路是：

第一步，E-步骤：由模型 $\mu$ 和观察值O计算隐含状态X。

第二步，M-步骤：由观察值O和隐含状态X重新计算模型 $\mu$

HMM模型应用

1、语音识别

观察值为音频输入，隐含状态为语音对应的文字内容。

2、机器翻译

观察值为源语言，隐含状态为目标语言。

3、中文分词

观察值为句子输入，隐含状态为分词结果。

理解

隐马尔可夫模型考虑了过去状态对当前状态的影响，可以说在建模过程中考虑到了上下文对当前输出的影响。但是这种“记忆力”比较短，只能保留一个时间单位。

和RNN的比较

在深度学习如此热门的情况下，发现HMM似乎仍然在很多问题中有应用，于是很好奇RNN有哪些优劣。网络中得到了以下答案：
1、RNN不存在马尔科夫假设。（RNN根本就不是个概率模型嘛）理论上RNN长时记忆力好，但是使用梯度下降方法仍然难以训练出很好的长时记忆力。因此模型中会使用n-gram 作为输入来增加模型的记忆力。
2、RNN的优势在于极好的模型拟合能力（神经网络都有）。同时RNN模型中考虑了句式和语义信息，能够得到不错的平滑性。
3、CRF是另一种可以参与比较的模型。CRF模型强大，与RNN相比有各自不同的优势。

行_之_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
隐马尔科夫模型（HMM）

模型背景隐马尔可夫模型（HMM）来源于马尔科夫模型。马尔科夫模型中，整个系统是可观察的。但是现实中，系统分为可观察和不可观察两个部分。HMM模型将系统t时刻的状态分为了不可观测部分xt和可观测部分yt。HMM模型的状态变化如图所示：两个基本假设1、齐次假设 t+1时刻状态xt+1x_{t+1}仅于t时刻状态xtx_t有关，与x1...t−1x_{1...t-1},y1...ty_{1...
复制链接

扫一扫