隐马尔可夫模型——求解估计问题

最新推荐文章于 2022-09-13 20:39:48 发布

P01son

最新推荐文章于 2022-09-13 20:39:48 发布

阅读量671

点赞数 1

本文链接：https://blog.csdn.net/qq_34832393/article/details/89959139

版权

本文聚焦隐马尔可夫模型相关算法的数学概念，介绍了其五元组或三元组表示。阐述了隐马尔可夫模型可求解的三个基本问题，重点讲解了求解估计问题的前向算法和后向算法，利用动态规划降低计算复杂度，时间复杂度均为O(N2T)，还提及可结合两种算法计算观察序列概率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

隐马尔可夫模型

本文主要关注隐马尔可夫模型相关算法的数学概念，如果还不理解什么是隐马尔可夫模型可以参考博客一文搞懂HMM（隐马尔可夫模型）

隐马尔可夫模型（HMM）可以记为一个五元组 $\mu = \left(S, K, A, B, \pi \right )$ ，其中：

S 为状态的集合 StatusSet
K 为输出符号的集合（观察值集合 ObservedSet）
$\pi$ 为初始状态的概率分布 InitStatus
A 为转移概率矩阵 TransProbMatrix
B 为发射概率矩阵 EmitProbMatrix

有时为了简便也将其记为三元组 $\mu = \left(A, B, \pi \right)$ 。

马尔可夫模型可以用来模拟潜在事件随机生成表面事件的情况，给定模型 $\mu = \left(A, B, \pi \right)$ ，观察序列 $O = O_1O_2…O_T$ 可以由以下过程产生：

（1）根据初始状态的概率分布 $\pi_i$ 选择一个初始状态 $q_1 = s_i$

（2）设 $t = 1$

（3）根据状态 $s_i$ 的输出概率分布 $b_i(k)$ 输出 $O_t=V_k$

（4）根据状态转移概率分布 $a_{ij}$ ，将当前时刻 $t$ 的状态转移到新的状态 $q_{t+1}=s_j$

（5） $t = t + 1$ ，如果 $t < T$ ，重复执行步骤（3）和（4），否则结束算法

三个基本问题

隐马尔可夫模型可以用于求解三个基本问题：

估计问题：给定一个观察序列 $O = O_1O_2…O_T$ 和模型 $\mu = \left ( A,B,\pi \right )$ ，如何快速地计算给定模型 $\mu$ 的情况下，观察序列 $O$ 的概率，即 $P\left (O |\mu \right )$ ？
序列问题：给定一个观察序列 $O = O_1O_2…O_T$ 和模型 $\mu = \left ( A,B,\pi \right )$ ，如何快速有效地选择在一定意义下「最优」的状态序列 $Q = q_1q_2…q_t$ ，使得该状态序列「最好地解释」观察序列？
训练问题或参数估计问题：给定一个观察序列 $O = O_1O_2…O_T$ ，如何根据最大似然估计来求模型的参数值？即如何调节模型 $\mu = \left( A, B, \pi \right)$ 的参数，使得 $P\left (O |\mu \right )$ 最大？

求解估计问题

给定一个观察序列 $O = O_1O_2…O_T$ 和模型 $\mu = \left ( A,B,\pi \right )$ ，要快速地计算给定模型 $\mu$ 的情况下，观察序列 $O$ 的概率，即 $P\left (O |\mu \right )$ 。这就是解码（decoding）问题。

对于任意状态序列 $Q = q_1q_2…q_T$ 有

$\begin{aligned} P\left(O|Q,\mu\right) &= \prod_{t=1}^{T-1}P\left(O_t|q_t,q_{t+1},\mu \right) \\ &= b_{q_{1}}\left(O_1\right)\times b_{q_{2}}\left(O_2\right)\times \cdot \cdot \cdot b_{q_{T}}\left(O_T\right)\ \tag{1-1} \end{aligned}$
其中， $b_{q_t}\left(O_t\right)$ 表示在状态 $q_t$ 输出观察值 $O_t$ 的概率

根据初始状态到结束状态转移的过程，有
$P\left(Q|\mu\right)=\pi_{q_1}a_{q_1q_2}a_{q_2q_3}\cdot \cdot \cdot a_{q_{T-1}q_{T}} \tag{1-2}$
其中， $\pi$ 表示初始状态概率， $a$ 表示状态转移概率

根据条件概率公式：
$P\left(O,Q|\mu \right) = P\left(O|Q,\mu\right)P\left(Q|\mu\right)\tag{1-3}$
由全概率公式：
$\begin{aligned} P\left(O|\mu\right)&=\sum_{Q}P\left(O,Q|\mu\right)\\ &=\sum_{Q}P\left(O|Q,\mu\right)P\left(Q|\mu\right)\\ &=\sum_{Q}\pi_{q_1}b_{q_{1}}\left(O_1\right)\prod_{t=1}^{T-1}a_{q_{t}q_{t+1}}b_{q_{t+1}}\left(O_{t+1}\right) \tag{1-4} \end{aligned}$
从上述的推导中可以看出，要想算出 $P\left (O |\mu \right )$ 必须穷举所有可能的状态序列 $Q$ 。如果模型 $\mu = \left ( A,B,\pi \right )$ 中有 $N$ 个不同的状态，观察序列长度为 $T$ ，那么就有 $N^T$ 个可能的状态序列，计算量出现了「指数爆炸」。

前向算法

为此，人们提出了前向算法，利用动态规划解决这一问题，将时间复杂度降至 $O\left(N^2T\right)$ 。

为了实现前向算法，需要定义一个前向变量 $\alpha_t \left(i \right)$

定义1-1 前向变量 $\alpha_t(i)$ 是在时间 $t$ 时，HMM 输出了序列 $O_1O_2…O_t$ ，并且位于状态 $s_i$ 的概率：
$\alpha_t(i)=P\left(O_1O_2…O_t,q_t=s_i|\mu\right)\tag{1-5}$
前向算法算法的主要思想是，如果可以快速计算前向变量 $\alpha_t(i)$ ，那么就可以根据 $\alpha_t(i)$ 计算出 $P\left (O |\mu \right )$ ，因为 $P\left (O |\mu \right )$ 是在时间 $T$ 时所有状态 $q_T$ 下观察到序列 $O = O_1O_2…O_t$ 的概率之和：
$\begin{aligned} P\left(O|\mu \right)&=\sum_{s_i}P\left(O_1O_2\cdot\cdot \cdot O_T,q_t=s_i|\mu\right) \\ &=\sum_{i=1}^{N}\alpha_T(i) \tag{1-6} \end{aligned}$
在前向算法中，采用动态规划的方法计算前向变量 $\alpha_t(i)$ ，其思想基于如下观察：在时间 $t + 1$ 的前向变量可以根据在时间 $t$ 时的前向变量 $\alpha_t(1)$ , $\alpha_t(2)$ , … , $\alpha_t(N)$ 的值来归纳计算：
$\alpha_{t+1}\left(j\right)=\left(\sum_{i=1}^{N}\alpha_t(i)a_{ij}\right)b_j\left(O_{t+1}\right) \tag{1-7}$
从初始时间到 $t + 1$ 时间，MHH 到达状态 $j$ ，并输出观察序列 $O_1O_2…O_{t+1}$ 的过程可以分为两个步骤：

（1）从初始时间开始到时间 $t$ 时，MHH 到达状态 $i$ ，并输出观察序列 $O_1O_2…O_{1}$

（2）从状态 $i$ 转移到状态 $j$ ，并在状态 $j$ 输出 $O_{t+1}$

这里 $s_i$ 可以是 HMM 的任意状态。根据前向变量的定义，完成第一步的概率就是 $\alpha_{t}(i)$ ，而实现第二步的概率为 $a_{ij}\times b_j(O_{t+1})$ ，由于 HMM 可以从不同的状态 $i$ 转移到状态 $j$ ，因此可得式（1-7）。

根据式(1-7) 给出的归纳关系，可以按时间顺序依次计算 $\alpha_1(x)$ , $\alpha_2(x)$ , … , $\alpha_T(x)$ ， $x$ 为 HMM 的状态变量。由此，得到如下前向算法：

（1）初始化： $\alpha_1(i)=\pi_ib_i(O_1),1\leq i\leq N$

（2）归纳计算：
$\alpha_{t+1}\left(j\right)=\left(\sum_{i=1}^{N}\alpha_t(i)a_{ij}\right)b_j\left(O_{t+1}\right) ,1\leq t\leq T-1$
（3）求和：
$P(O|\mu)=\sum_{t=1}^N\alpha_T(i)$
在初始化步骤中， $\pi_i$ 是初始状态 $s_i$ 的概率， $b_i(O_1)$ 是在 $s_i$ 状态输出 $O_1$ 的概率。一共有 $N$ 个状态，因此需要初始化 $N$ 个前向变量 $\alpha_1(s_1)$ , $\alpha_1(s_2)$ , … , $\alpha_1(s_N)$ 。

由于每计算一个 $\alpha_t(i)$ 必须考虑 $t - 1$ 时所有 $N$ 个状态转移到状态 $s_i$ 的可能性，其时间复杂度为 $O (N)$ 。在每个单位时间 $t$ 内有 $N$ 个前向变量，时间复杂度为 $N\times O(N) = O(N^2)$ 。在 $t = 1, 2, \dots, T$ 的过程中要计算 $T$ 次，因此总的时间复杂度为 $T\times O(N^2) = O(N^2T)$

后向算法

对于求解 HMM 中的第一个问题，即在给定一个观察序列 $O = O_1O_2…O_T$ 和模型 $\mu = \left ( A,B,\pi \right )$ ，如何快速计算 $P\left (O |\mu \right )$ 的问题还可以采用另外一种实现方法，即后向算法。

对应于前向变量，可定义一个后向变量 $\beta_t(i)$

定义 1-2：后向变量 $\beta_t(i)$ 是在给定了模型 $\mu = \left ( A,B,\pi \right )$ ，并且在时间 $t$ 状态为 $s_i$ 的条件下，HMM 输出观察序列 $O_{t+1}O_{t+2}…O_T$ 的概率：
$\beta_t(i)=p\left(O_{t+1}O_{t+2}…O_T|q_t = s_i,\mu\right),\tag{1-8}$
与计算前向变量一样，可以用动态规划的算法计算后向变量。在时间 $t$ 时，状态为 $s_i$ 的条件下，HMM 输出观察序列 $O_{t+1}O_{t+2}…O_T$ 的过程可以分为一下两个步骤：

（1）在时间 $t$ 到时间 $t + 1$ ，HMM 由状态 $s_i$ 到状态 $s_j$ ，并从 $s_j$ 输出 $O_{T+1}$

（2）在时间 $t + 1$ 的状态为 $s_j$ 的条件下，HMM输出观察序列 $O_{t+2}…O_T$

第一步中输出 $O_{t+1}$ 的概率为： $a_{ij}\times b_j(O_{t_1})$ ；第二步中根据后向变量的定义，HMM输出观察序列为 $O_{t+2}…O_T$ 的概率就说后向变量 $\beta_{t+1}(j)$ 。可得如下归纳关系：
$\beta_t(i)= \sum_{j=1}^{N}a_{ij}b_j(O_{t+1})\beta_{t+1}(j)\tag{1-9}$
根据后向变量的归纳关系，按 $T, T - 1, \dots, 2, 1$ 的顺序依次计算 $\beta_T(x), \beta_{T-1}(x), … , \beta_1{x}$ （ $x$ 为 HMM 的状态变量），就可以得到整个观察序列 $O= O_1O_2…O_{T}$ 的概率。可使用如下算法表示：

算法 1-2 后向算法

（1）初始化： $\beta_T(i)=1, 1\leq i\leq N$

（2）归纳计算：
$\beta_t(i)= \sum_{j=1}^{N}a_{ij}b_j(O_{t+1})\beta_{t+1}(j),T-1 \geq t\geq1;1\leq i\leq N \tag{1-10}$
（3）求和：
$P(O|\mu)=\sum_{i=1}^{N}\pi_ib_i(O_1)\beta_1(i)$
由前向算法可知，后向算法的时间复杂度也是 $O(N^2T)$ 。

更一般地，可以采用前向算法和后向算法相结合的方法来计算观察序列的概率：
$\begin{aligned} P(O,q_t=s_i|\mu) &= P(O_1 \cdot\cdot\cdot O_T,q_t = s_i|\mu)\\ &=P(O_1 \cdot\cdot\cdot O_t,q_t = s_i|\mu)\times P(O_{t+1} \cdot\cdot\cdot O_{T}|O_1 \cdot\cdot\cdot O_t,q_t = s_i|\mu)\\ &=P(O_1 \cdot\cdot\cdot O_t,q_t = s_i|\mu)\times P(O_{t+1} \cdot\cdot\cdot O_{T}|q_t = s_i|\mu)\\ &= \alpha_t(i)\beta_t(i) \tag{1-11} \end{aligned}$
因此
$P(O|\mu)=\sum_{i=1}^{N}\alpha_t(i)\beta_t(i) ,1\leq t\leq T\tag{1-12}$