隐马尔科夫模型

最新推荐文章于 2024-07-15 17:08:02 发布

马鹤宁

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量321

点赞数

分类专栏：机器学习和深度学习之旅文章标签： 1024程序员节机器学习人工智能隐马尔科夫

本文链接：https://blog.csdn.net/weixin_42111770/article/details/109256758

版权

机器学习和深度学习之旅专栏收录该内容

84 篇文章 36 订阅

订阅专栏

隐马尔可夫模型

定义： 隐马尔可夫模型（hidden Markov model，HMM）是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可预测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列（state sequence）；每一个状态生成一个观测，而由此产生的观测的随机序列，成为观测序列（observation sequence）；序列的每一个位置又可以看作是一个时刻。

HMM

隐马尔可夫有两个基本假设，其次隐马尔科夫假设和观测独立性假设：

其次隐马尔科夫假设：假设隐藏的隐马尔可夫链在任意时刻的状态只依赖于前一个时刻的状态，与其他时刻的状态及观测无关。
观测独立性假设：假设任意时刻的观测只依赖于该时刻的状态

隐马尔可夫模型由初始状态概率向量 $\pi$ ，状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列， $B$ 确定了如何从状态生成观测。因此，隐马尔可夫模型 $\lambda$ /可用三元组表示， $\lambda=\left( \pi, A, B \right)$ 。

下面我们仔细介绍一下各个参数的定义：

假设有 $N$ 个状态的状态集合 $Q$ 为： $\left\{ q_{1}, q_{2}, \cdots, q_{N} \right\}$
假设有 $M$ 个观测状态的观测集合 $V$ 为： $\left\{ v_{1}, v_{2}, \cdots, v_{N} \right\}$
假设长度为 $T$ 的状态序列 $I$ 为: $\left( i_{1}, i_{2}, \cdots, i_{T} \right)$ ，其对应的观测序列 $O$ 为： $\left(o_{1} ,o_{2}, \cdots, o_{T} \right)$
初始状态变量 $\pi$ 为： $\pi=\left( \pi_{i} \right)$ ，其中 $\pi = P \left( i_{t} = q_{i}\right)$ ，是在时刻 $t$ 下处于状态 $q$ 的概率
状态转移矩阵 $A$ 为： $\left[ a_{i,j}\right]_{N \times N}$ ，其中 $a_{i,j}=P \left( i_{t+1} = q_{j} | i_{t} = q_{i} \right)$ ，表示时刻 $t$ 下的状态 $q_{i}$ 在时刻 $t + 1$ 转移到状态 $q_{j}$ 的概率
观测概率矩 $B$ 为： $\left[ b_{j}\left( k \right) \right]_{N \times M}$ ，其中 $b_{j}\left( k \right)=P \left( o_{t} = v_{k} | i_{t} = q_{j} \right)$ ，表示在时刻 $t$ 下的状态 $q_{j}$ 下生成观测 $v_{k}$ 的概率

有了上面的定义，假设给定HMM模型 $\lambda=\left( \pi, A, B \right)$ 和观测序列 $\left\{ o_{1}, o_{2}, \cdots, o_{N} \right\}$ ，要怎么计算观测序列 $O$ 出现的概率 $\left(O | \lambda \right)$ 。有三种方法，我们一一讲解。

直接计算法

首先计算状态序列 $I$ 的概率为 $P\left( I | \lambda \right) = \pi_{i_{1}} a_{i_{1},i_{2}} \cdots a_{i_{T-1},i_{T}}$
再者计算在状态序列 $I$ 下的观测序列 $O$ 的概率为 $P\left( O|I, \lambda \right) = b_{i_{1}}\left( o_{1} \right) b_{i_{2}}\left( o_{2} \right) \cdots b_{i_{T}}\left( o_{T} \right)$
随后状态序列 $I$ 和观测序列 $O$ 的联合概率为 $P\left( O,I| \lambda \right) = \pi_{i_{1}} b_{i_{1}}\left( o_{1} \right) a_{i_{1},i_{2}} b_{i_{2}}\left( o_{2} \right)\cdots a_{i_{T-1},i_{T}} b_{i_{T}}\left( o_{T} \right)$
最后对所有的状态序列 $I$ 进行求和，计算
$\begin{matrix} P \left(Q | \lambda \right)&= \sum_{I}P\left( O|I, \lambda \right) P\left( I | \lambda \right) \qquad \qquad \qquad \qquad \qquad \qquad \\ &= \sum_{i_{1}, \cdots, i_{T}}\pi_{i_{1}} b_{i_{1}}\left( o_{1} \right) a_{i_{1},i_{2}} b_{i_{2}}\left( o_{2} \right)\cdots a_{i_{T-1},i_{T}} b_{i_{T}}\left( o_{T} \right) \; \end{matrix}$

使用直接计算法，看公式就能看到繁重的计算量，加快计算速度，下面介绍前向算法和后向算法。前向概率是由前向后计算，局部计算前向概率，每一次的计算直接引用前一个时刻的计算成果。

前向后向算法

前向算法

对于隐马尔可夫模型 $\lambda$ ，定义时刻t的状态为 $q_{i}$ ，且到该时刻下的观测序列 $o_{1}, \cdots , o_{t}$ 的概率为前向概率 $\alpha_{t} \left( i\right) = P\left(o_{1},\cdots,o_{t}, i_{t}=q_{i} | \lambda \right)$ ；那么 $\alpha_{t} \left( i \right) \alpha_{ij}$ 就是在时刻 $t$ 状态为 $q_{i}$ 时且在时刻 $t + 1$ 处于状态 $q_{j}$ 时观测到 $o_{1}, \cdots,o_{t}$ 的联合概率；对 $\alpha_{t} \left( i \right) \alpha_{ij}$ 在时刻 $t$ 下的所有可能的 $N$ 个状态进行求和计算，其结果就是到时刻 $t$ 观测为 $o_{1}, \cdots,o_{t}$ 并在时刻 $t + 1$ 处于状态 $q_{j }$ 的联合概率；最后再与 $b_{i}\left( o_{t+1}\right)$ 相乘，其结果恰好是到当时刻 $t + 1$ 的状态为 $q_{j}$ 时，观测到 $o_{1},\cdots, o_{t+1}$ 的概率，即是 $\alpha_{t+1}\left( i \right)$ 。

HMM的前向算法的计算步骤如下：

初始化： $\alpha_{1} \left( i\right) = \pi_{i} b_{i}\left( o_{1} \right ),i=1.\cdots,N$
对每一个时刻 $t=1,\cdots, T$
$\alpha_{t+1} \left( i\right) = \left [ \sum_{j=1}^{N}\alpha_{t}\left( j \right ) \alpha_{ji} \right ]b_{i}\left ( o_{t+1} \right ), i=1,2,\cdots,N$
最后:
$ P \left(Q | \lambda \right) = \sum_{i=1}^{N} \alpha_{T} \left ( i \right )$

后向算法

对于隐马尔可夫模型 $\lambda$ ，定义时刻t的状态为 $q_{i}$ ，从 $t + 1$ 时刻到时刻 $T$ 的观测序列 $o_{t+1}, \cdots , o_{T}$ 的概率为后向概率 $\beta \left( i \right) = P\left(o_{t+1},\cdots,o_{T} | i_{t}=q_{i}, \lambda \right)$

类似于前向计算的思路，这次计算是由后向前计算，步骤如下：

初始化为 $\beta \left ( i \right ) = 1, i=1,2,\cdots,N$
将时刻 $t$ 从后向前编列 $t=T-1,\cdots,1$
$\beta_{t} \left( i\right) = \sum_{j=1}^{N}\alpha_{ij} b_{j}\left ( o_{t+1} \right )\beta_{t+1}\left ( j \right ) , i=1,2,\cdots,N$
最后:
$\left(Q | \lambda \right) = \sum_{i=1}^{N} \pi_{i}b_{i}\left ( o_{1} \right )\beta_{1}\left ( i \right )$