个人学习笔记（十二）隐马尔科夫模型

最新推荐文章于 2022-04-06 11:59:47 发布

万carp

最新推荐文章于 2022-04-06 11:59:47 发布

阅读量303

点赞数

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/90142399

版权

个人学习笔记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

隐马尔科夫模型(hidden Markov model, HMM)是用于标注问题的统计学习模型，属于生成模型。

一、隐马尔科夫模型的基本概念

隐藏的马尔科夫链随机生成的状态的序列，称为状态序列(state sequence)；每个状态生成一个观测，由此产生观测的随机序列，称为观测序列(observation sequence)。序列的每一个位置可以看作是一个时刻。
设 $Q$ 是所有可能的状态集合， $V$ 是所有可能的观测集合，即
$Q=\{q_1,q_2,\cdots,q_N\}, V=\{v_1,v_2,\cdots,v_M\}$ 式中， $N$ 是可能的状态数， $M$ 是所有可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列，即
$I=(i_1,i_2,\cdots,i_T), O=(o_1,o_2,\cdots,o_T)$ 隐马尔科夫模型建立在以上状态与观测概念的基础上，它由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。因此，隐马尔科夫模型 $\lambda$ 可用以下三元符号表示
$\lambda =(A,B,\pi)$ $A,B,\pi$ 称为隐马尔科夫模型的三要素，其中 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。接着分别介绍 $A,B,\pi$ 的概念。
$A$ 是状态转移概率矩阵
$A=[a_{ij}]_{N\times N}$ 其中
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i), i=1,2,\cdots,N; j=1,2,\cdots,N$ 即前一时刻处于状态 $q_i$ 的条件下下一时刻转移到状态 $q_j$ 的概率。
$B$ 是观测概率矩阵
$B=[b_j(k)]_{N\times M}$ 其中
$b_j(k)=P(o_t=v_k|i_t=q_j), k=1,2,\cdots,M; j=1,2,\cdots,N$ 即处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$\pi$ 是初始状态概率向量
$\pi=(\pi_i), i=1,2,\cdots,N$ 其中
$\pi_i=P(i_1=q_i)$ 即第一个时刻处于状态 $q_i$ 的概率。
隐马尔科夫模型作了下面两个基本假设：
（1）齐次马尔科夫性假设，即任一时刻 $t$ 的状态只与 $t - 1$ 时刻的状态有关，与其他时刻的状态和观测无关
$P(i_t|i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(i_t|i_{t-1})$ （2）观测独立性假设，即任意时刻的观测只依赖该时刻的状态
$P(o_t|i_T,o_T,i_{T-1},o_{T-1},\cdots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(o_t|i_t)$ 隐马尔科夫模型可以用于标注，即给定观测的序列预测其对应的标记序列，这时状态对应标记。
最后介绍一下隐马尔科夫模型的三个基本问题。
（1）概率计算问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,\cdots,o_T)$ ，计算观测 $O$ 出现的概率。
（2）学习问题。给定观测序列 $O=(o_1,o_2,\cdots,o_T)$ ，用极大似然估计模型 $\lambda=(A,B,\pi)$ 的参数。
（3）预测问题，也叫解码(decoding)问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,\cdots,o_T)$ ，求最可能对应的状态序列。

二、概率计算算法

概率计算是计算观测序列 $O$ 出现的概率 $P(O|\lambda)$ ，最直接的算法是，先列举所有可能的状态序列 $I=(i_1,i_2,\cdots,i_T)$ ，计算每个状态序列的概率 $P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}\cdots a_{i_{T-1}i_T}$ ，再计算每个状态下的给定观测序列概率 $P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T)$ ，接着计算状态序列 $I$ 和观测序列 $O$ 的联合概率 $P(O,I|\lambda)=P(I|\lambda)P(O|I,\lambda)$ ，对所有可能的 $I$ 求和，得到 $P(O|\lambda)=\sum_IP(O,I|\lambda)$ 。
这种算法的效率太低了，因为可能的状态序列就有 $N^T$ 个，而每个状态序列的每个时刻都要计算一次给定观测的概率，因此算法是 $O(TN^T)$ 阶的。
接着来看更快的前向算法。先抛出一个定义，给定模型参数 $\lambda$ ，到时刻 $t$ 的部分观测序列为 $o_1,o_2,\cdots,o_t$ 且时刻 $t$ 状态为 $q_i$ 的概率为前向概率，记作
$\alpha_t(i)=P(o_1,o_2,\cdots,o_t,i_t=q_i|\lambda)$ 这个前向概率是可以递推得到的。首先确定初始时刻 $t = 1$ 的前向概率
$\alpha_1(i)=P(o_1,i_t=q_i|\lambda)=P(i_t=q_i|\lambda)P(o_1|i_t=q_i,\lambda)=\pi_ib_i(o_1), i=1,2,\cdots,N$ 接着递推后面各时刻的前向概率
$\alpha_{t+1}(i)=P(o_1,\cdots,o_{t+1},i_{t+1}=q_i|\lambda)=P(o_1,\cdots,o_{t+1}|\lambda)P(i_{t+1}=q_i|o_1,\cdots,o_{t+1},\lambda)$ 因为式中的
$P(o_1,\cdots,o_{t+1}|\lambda)=P(o_1,\cdots,o_t|\lambda)P(o_{t+1}|o_1,\cdots,o_t,\lambda)$ 又上式可继续写作
$P(o_1,\cdots,o_{t+1}|\lambda)=\sum_{j=1}^NP(o_1,\cdots,o_t,i_t=q_j|\lambda)P(o_{t+1}|o_1,\cdots,o_t,i_t=q_j,\lambda)$ 因此
$P(o_1,\cdots,o_{t+1}|\lambda)=\sum_{j=1}^N\alpha_t(j)a_{ji}$ 代入 $\alpha_{t+1}(i)$ 的表达式，得
$\alpha_{t+1}(i)=[\sum_{j=1}^N\alpha_t(j)a_{ji}]b_i(o_{t+1}) i=1,2,\cdots,N$ 递推至最后时刻，得到 $P(O|\lambda)$ 的表达式
$P(O|\lambda)=P(o_1,\cdots,o_T|\lambda)=\sum_{i=1}^NP(o_1,\cdots,o_T,i_T=q_i|\lambda)=\sum_{i=1}^N\alpha_T(i)$ 前向算法比直接算法快很多，每一次递推都要计算 $N^2$ 次，因此前向算法是 $O(TN^2)$ 阶的。
再来看与前向算法相对应的后向算法。同样先抛出一个定义，给定模型参数 $\lambda$ ，在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 往后的部分观测序列为 $o_{t+1},o_{t+2},\cdots,o_{T}$ 的概率为后向概率，记作
$\beta_t(i)=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda)$ 仔细观察，后向概率与前向概率有两点不同。第一点，前向概率是 $o_1,\cdots,o_t$ 的概率，后向概率为 $o_{t+1},\cdots,o_T$ 的概率，它们是互斥的两部分；第二点，在后向概率中， $i_t=q_i$ 是作为条件写在后面的。
后向概率同样可以递推得到。首先确定最后时刻 $t = T$ 的后向概率
$\beta_T(i)=1, i=1,2,\cdots,N$ 接着递推前面各时刻的后向概率
$\beta_t(i)=\sum_{j=1}^N\alpha_{ij}b_j(o_{t+1})\beta_{t+1}(j), i=1,2,\cdots,N$ 最终递推至 $\beta_1(i)$ 后，可以得到 $P(O|\lambda)$ 的表达式
$P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$ 根据前向概率与后向概率中 $P(O|\lambda)$ 的两个表达式， $P(O|\lambda)$ 可写成更一般的形式
$P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j), t=1,2,\cdots,T-1$

三、学习算法

学习问题是给定观测序列，用极大似然估计模型的参数。如果已知的数据中除了观测序列 $O$ ，还有状态序列 $I$ ，那么直接用极大似然估计法来估计参数 $\lambda=(A,B,\pi)$ 即可，具体算法很简单。
首先是转移概率 $a_{ij}$ 的估计，设样本中两相邻时刻从状态 $i$ 转移到状态 $j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是
$\hat a_{ij}=\frac{A_{ij}}{\sum_{j=1}^NA_{ij}}$ 接着是观测概率 $b_j(k)$ 的估计，设样本中状态为 $j$ 且观测为 $k$ 的频数是 $B_{jk}$ ，那么观测概率 $b_j(k)$ 的估计是
$\hat b_j(k)=\frac{B_{jk}}{\sum_{k=1}^MB_{jk}}$ 最后是初始状态概率 $\pi_i$ 的估计，即为 $S$ 个样本中初始状态为 $q_i$ 的频率。
在现实中，往往只有观测序列 $O$ 是已知的，状态序列看作是不可观测的隐数据 $I$ ，我们要估计参数 $\lambda$ ，使 $P(O|\lambda)$ 最大，这样EM算法便派上用场了。
设 $\bar\lambda$ 是当前估计值，根据EM算法的E步， $Q$ 函数为
$Q(\lambda,\bar{\lambda})=E_I[logP(O,I|\lambda)|O,\bar{\lambda}]=\sum_IlogP(O,I|\lambda)P(I|O,\bar{\lambda})$ 由于式中
$P(I|O,\bar{\lambda})=\frac{P(O,I|\bar{\lambda})}{P(O,\bar{\lambda})}$ 而 $P(O,\bar\lambda)$ 对要求的 $\lambda$ 而言是常数，因此 $Q$ 函数可写为
$Q(\lambda,\bar\lambda)=\sum_IlogP(O,I|\lambda)P(O,I|\bar\lambda)$ 由于式中
$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)\cdot a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)$ 把上式分为 $\pi,A,B$ 三部分代入 $Q$ 函数中，可得
$Q(\lambda,\bar\lambda)=[\sum_Ilog\pi_{i_1}+\sum_I\sum_{t=1}^{T-1}loga_{i_1i_{t+1}}+\sum_I\sum_{t=1}^Tlogb_{i_t}(o_t)]\cdot P(O,I|\bar\lambda)$ 由于要求得三个参数单独地出现在上面三项中，分别求导后可得更新三个参数的表达式
$\pi_i=\frac{P(O,i_1=i|\bar\lambda)}{P(O|\bar\lambda)}$ $a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)}{\sum_{t=1}^{T-1}P(O,i_t=i|\bar\lambda)}$ $b_j(k)=\frac{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)I(o_t=v_k)}{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)}$ 上面三个式子仍然不够直接，因为它没有直接写出与 $\bar\lambda=(\bar A,\bar B, \bar\pi)$ 有关的表达式，为了引出更直接的表达式，下面先介绍两个概念。
第一个概念，设给定模型 $\lambda$ 和观测 $O$ ，时刻 $t$ 处于状态 $q_i$ 的概率为 $\gamma_t(i)=P(i_t=q_i|O,\lambda)$ ，结合前向概率 $\alpha_t(i)$ 与后向概率 $\beta_t(i)$ ，可得到
$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$ 第二个概念，设给定模型 $\lambda$ 和观测 $O$ ，时刻 $t$ 处于状态 $q_i$ 且时刻 $t + 1$ 处于状态 $q_j$ 的概率为 $\xi_t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O,\lambda)$ ，可得到
$\xi_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}$ 这样，更新三个参数的表达式可写作
$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$ $b_j(k)=\frac{\sum_{t=1,o_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)}$ $\pi_i=\gamma_1(i)$

四、预测算法

预测问题是给定模型 $\lambda$ 和观测序列 $O$ ，求最有可能的状态序列 $I$ 。
首先是最简单直接的近似算法，不考虑其他时刻，直接对每个时刻 $t$ 计算该时刻最有可能出现的状态，将它作为预测结果。在上一节中提到了 $\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$ 代表时刻 $t$ 处于状态 $q_i$ 的概率，因此在每一个时刻 $t$ 最有可能的状态 $i_t^*$ 是
$i_t^*=\arg\max_{1\le i\le N}\gamma_t(i), t=1,2,\cdots,T$ 近似算法比较简单，但它只能保证每一时刻都是最有可能的状态，但没法保证整个状态序列是最有可能的状态序列。事实上，用近似算法很有可能出现这种情况：得到的状态序列中，某两个相邻状态的转移概率为0。
为了求出最有可能的状态序列，我们可以用动态规划(dynamic programming)的思路求解这个最优路径问题，即从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i$ 的各条部分路径的最大概率，直至得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率，这就是维特比算法。
先给出两个定义。在时刻 $t$ 状态为 $i$ 的所有单个路径 $(i_1,i_2,\cdots,i_t)$ 中概率最大值为
$\delta_t(i)=\max_{i_1,i_2,\cdots,i_{t-1}}P(i_t=i,i_{t-1},\cdots,i_1,o_t,\cdots,o_1|\lambda), i=1,2,\cdots,N$ 那么后面各时刻可递推得到，递推公式为
$\delta_{t+1}(i)=\max_{1\le j\le N}[\delta_t(j)a_{ji}]b_i(o_{t+1}), i=1,2,\cdots,N; t=1,2,\cdots,T-1$ 再给出第二个定义，在时刻 $t$ 状态为 $i$ 的概率最大的路径 $(i_1,i_2,\cdots,i_{t-1},i)$ 中，第 $t - 1$ 个节点的状态为
$\psi_t(i)=\arg\max_{1\le j\le N}[\delta_{t-1}(j)a_{ji}]$ 这个 $\psi_t(i)$ 的含义可能有点难理解，它代表的是到目前为止最优路径中 $t - 1$ 个节点的状态，它能帮助我们在递推完成得到 $T$ 时刻的状态后，回溯得到前面各时刻的状态。从另一种角度， $\delta_t(i)$ 的递推公式中可以写成
$\delta_{t+1}(i)=\delta_t(\psi_t(i))a_{ji}b_i(o_{t+1})$ 这样，就能引出维特比算法的具体过程了。首先在 $t = 1$ 时刻，有
$\delta_1(i)=\pi_ib_i(o_1), i=1,2,\cdots,N$ $\psi_1(i)=0, i=1,2,\cdots,N$ 对后面各时刻递推，有
$\delta_t(i)=\max_{1\le j\le N}[\delta_{t-1}(j)a_{ji}]b_i(o_t), i=1,2,\cdots,N$ $\psi_t(i)=\arg\max_{1\le j\le N}[\delta_{t-1}(j)a_{ji}], i=1,2,\cdots,N$ 递推到时刻 $t = T$ ，可以得到最优状态序列中，时刻 $T$ 的状态为
$i_T^*=\arg\max_{1\le i\le N}\delta_T(i)$ 这条路径的概率为
$P^*=\max_{1\le i \le N}\delta_T(i)$ 最后便可以用 $\psi_t(i)$ 回溯了，得到最优状态序列中前面各时刻的状态
$i_t^*=\psi_{t+1}(i_{t+1}^*)$

万carp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
个人学习笔记（十二）隐马尔科夫模型

       隐马尔科夫模型(hidden Markov model, HMM)是用于标注问题的统计学习模型，属于生成模型。一、隐马尔科夫模型的基本概念       隐藏的马尔科夫链随机生成的状态的序列，称为状态序列(state sequence)；每个状态生成一个观测，由此产生观测的随机序列，称为观测序列(obs...
复制链接

扫一扫

专栏目录