隐马尔可夫模型二(公式推导)

最新推荐文章于 2024-07-15 17:08:02 发布

gzj_1101

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量3.6k

点赞数 4

分类专栏： machine learning

本文链接：https://blog.csdn.net/gzj_1101/article/details/80031298

版权

本文深入探讨隐马尔可夫模型（HMM），介绍概率问题、前向后向算法、Baum-Welch学习算法以及预测算法。通过公式推导和实例解析，阐述HMM在计算观测序列概率时的动态规划思想，帮助读者理解如何减少计算复杂度并解决解码问题。

摘要由CSDN通过智能技术生成

前面一篇介绍了隐马尔科夫模型的基本的一些概念，篇主要介绍三个问题的具体解决方法。如果对于概念不太理解的可以参考前一篇博客HMM模型基本概念，本篇博客主要介绍对于三个问题的主要推倒，内容主要基于统计学习方法这本书，但是在上面加上了一些自己的理解。下面一一介绍三个问题以及解决的办法。

概率问题

给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。

直接计算法

直接计算法说白了就是暴力计算每一种情况的可能。对于所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，即:

P (O | λ) = \sum I P (O | I, λ) P (I | λ)

$P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)$

= \sum i 1, i 2, . . ., i T π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) . . . a i T - 1 i T b i T (o T)

$=\sum_{i_1,i_2,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

这种计算的缺点在于计算量很大，时间复杂度为 $O(TN^T)$ 。

前向后向算法

前向后向算法的核心是利用动态规划的思想减少计算的时间复杂度。

图1

前向算法

前向概率 给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作

α t (i) = P (o 1, o 2, . . ., o t, i t = q i | λ) (1)

$\alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)\quad (1)$

然后可以递推求出前向概率 $\alpha_t(i)$ 以及观测序列 $P(O|\lambda)$

盒子	1	2	3	4
红球数	5	3	6	8
白球数	5	7	4	2

那么这个前向概率到底是什么意思呢？估计好多人还是看的一脸懵逼。还是以之前的盒子与球模型,观测序列为 $O=\{红,红,白,白,红\}$ ，假设 $t=3,i=1$ ,后面的序列我们不知道,那么 $\alpha_t(i)=P(O=\{红,红,白\},i=1|\lambda)$ 。即前面观测序列为[红,红,白],第三次丑的白色球是从盒子1中抽出的概率。

下面是对前向算法的形式化推导。

输入：隐马尔科夫模型 $\lambda$ ,观测序列为 $O$ ;

输出：观测序列概率 $P(O|\lambda)$ ;

1.初值

α 1 (i) = π i b i (o 1) (2)

$\alpha_1(i)=\pi_i b_i(o_1)\quad (2)$

即求第一个观测值对应的状态为 $i$ 的概率

2.递推，对t=1,2,…,T-1,

α_{t + 1} (i) = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1}), i = 1, 2, . . . ., N (3)

$\alpha_{t+1}(i)=[\sum_{j=1}^N\alpha_t(j)a_{ji}]b_i(o_{t+1}),\quad i=1,2,....,N\quad (3)$

3.终止

P (O | λ) = \sum i = 1 N α T (i) (4)

$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)\quad (4)$

上面这段公式推导的思想为，先求观测值为 $o_1$ 的概率，然后在前面的基础上求观测值为 $o_2$ 对应的概率,依次递推，最后求观测值为 $o_t$ 的概率。然后每一种概率对应了不同的状态， $\alpha_t(i)$ 则表示在状态为 $i$ 时的概率，而 $P(o_1,o_2,...,o_t,i_T=q_i|\lambda)$ ，然后然后对 $i$ 求和就能够得到上述(3)式。其递推过程图如下：