隐马尔科夫模型HMM

诸神缄默不语

已于 2023-11-26 16:26:57 修改

阅读量850

点赞数 1

分类专栏：人工智能学习笔记文章标签：隐马尔科夫模型 HMM

于 2022-10-18 19:39:08 首次发布

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/127387828

版权

人工智能学习笔记专栏收录该内容

243 篇文章 267 订阅

订阅专栏

本文深入介绍了隐马尔科夫模型（HMM），它是一种用于时间序列分析的概率模型。HMM假设状态序列遵循马尔科夫过程，并且每个状态以一定的概率产生输出。主要任务包括推理和训练，前者涉及计算给定输出序列的最可能状态序列，后者是根据输出序列估计模型参数。文章详细阐述了HMM的基本概念、参数求解方法如EM算法，以及维特比算法在模式匹配中的应用。此外，还讨论了HMM在序列标注和语音识别等领域的应用。

摘要由CSDN通过智能技术生成

诸神缄默不语-个人CSDN博文目录

本文介绍常见的机器学习模型隐马尔科夫模型HMM。
HMM也是generative model。

原始论文：(1971 The Annals of Mathematical Statistics) A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains

1. 概率与随机过程的区别

概率是反映随机事件发生的可能性。若随机事件发生的概率随时间而改变，我们在考虑时间因素或空间因素的情况下去分析随机事件发生的概率，称为随机过程。
若我们每次抛掷硬币且正面向上的概率为0.5，正面向上的概率不随抛掷次数而改变，我们可以用概率来描述这一事件，如P(X)，其中X表示硬币正面向上的随机事件。
若我们每次抛掷硬币，硬币落在地上会导致形状的改变，正面向上的概率随抛掷次数的改变而改变，我们用随机过程来描述这一事件，如 $P(X_1,X_2,\dots,X_i)$ ，其中 $X_i$ 表示第i次抛掷硬币正面向上的随机事件。
笼统的讲，概率是分析一个随机变量，而随机过程是分析一组随机变量。

2. HMM概念

隐马尔科夫模型 Hidden Markov models (HMMs) 是时间序列的概率模型，变量variables可以在状态states之间转换，各种转换的概率（switch probability）不同。每个状态都能以某一概率（output probability）产生输出output之一。状态和输出的集合已知，输出已知，状态转换概率和输出概率等信息未知（隐）。

在这里插入图片描述

需要解决的问题：

推理：根据输出序列计算candidate state-switch sequences的概率
模式匹配：根据输出序列计算最可能是的state-switch sequence（Viterbi算法：信号处理领域）
训练：给出输出序列（训练）数据，计算最可能出现的state-switch/output probabilities (ie, system internals)
已知观测序列O和模型参数 $\lambda$ ，如何求解观测序列O出现的概率 $P(O|\lambda)$

模式匹配和训练任务事实上就是Naive Bayesian推理¹延伸到了序列数据上。

假设：

状态序列（标注序列）符合马尔科夫链假设，状态转换的概率取决于前N个状态。最简单的N=1就是‘first-order’ case，仅基于当前状态决定（马尔科夫过程²）
生成输出结果的概率仅取决于当前概率
观测序列是相互独立的

给定state-switch sequence和对应的observed-output sequence，可以直接用每个概率通过乘法计算出整体的概率。

马尔科夫模型与隐马尔科夫模型的区别：是否含有隐变量
在这里插入图片描述

在这里插入图片描述

3. HMM参数介绍和求解方法

观测序列：观测概率矩阵B（状态生成观测的概率）
未观测的状态序列：初始状态概率向量 $\pi$ （处于状态的概率） + 状态转移概率矩阵A

$\lambda=(A,B,\pi)$

HMM： $P(O|\lambda)=\sum\limits_IP(O,I|\lambda)=\sum\limits_IP(O|I,\lambda)P(I|\lambda)$ （其中I为标注序列）
给定模型参数，生成观测的概率→引入隐变量状态序列辅助求解

训练，已知 $O$ 求 $\lambda$ ：其中I为标注序列，在公式中是隐变量，因此可用EM算法³求解上式的模型参数 $\lambda$ 。具体步骤：
1. 初始化 $\overline\lambda$
2. 观测变量和隐变量的对数似然函数： $\log P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)$ （初始状态×生成观测的概率×状态转移概率×生成观测的概率…）
3. E：对隐变量求期望 $Q(\lambda,\overline\lambda)=\sum\limits_I\log P(O,I|\lambda)P(O,I|\overline\lambda)=\sum\limits_I\log\pi_{i_1}P(O,I|\overline\lambda)+\sum\limits_I(\sum\limits_{t=1}^{T-1}\log a_{i_ti_{t+1}})P(O,I|\overline\lambda)+\sum\limits_I(\sum\limits_{t=1}^T\log b_{i_t}(o_t))P(O,I|\overline\lambda)$
4. M：求使 $Q$ 取极大值的 $\lambda=(A,B,\pi)$
  求偏导数并使其等于0，有： $\dfrac{\partial Q(\lambda,\overline\lambda)}{\partial\pi_i}=\dfrac{\partial Q(\lambda,\overline\lambda)}{\partial a_{ij}}=\dfrac{\partial Q(\lambda,\overline\lambda)}{\partial b_j(k)}0$
  约束条件为初始状态概率分布的和等于1，即： $\sum\limits_{i=1}^N\pi_i=1$
  状态已知的情况下，观测概率分布的和等于1，即： $\sum\limits_{k=1}^Mb_j(k)=1$
  得到 $\pi_i,a_{ij},b_j(k)$ 的值，即更新 $\lambda$
5. 重复步骤3、4
计算观测序列出现的概率（N是总的状态数）
1. 枚举法： $O(TN^T)$
2. 递推法： $O(TN^2)$
  状态为 $q_i$ 的前向概率 $\alpha_t(i)$ （生成给定长度为t的观测序列，且t状态是 $q_i$ 的概率）： $\alpha_t(i)=P(o_1,o_2,\dots,o_t,i_t=q_i|\lambda)$
  
  t=1时： $\alpha_1(i)=\pi_ib_i(o_1),i=1,2,\dots,N$ （初始得到该状态×该状态生出该观测）
  $P(o_1|\lambda)=\sum\limits^N_{i=1}\alpha_{1}(i)$ （在所有状态下生成该观测的概率加总）
  
  递推，对于 $t=1,2,\dots,T-1$
  $\alpha_{t+1}(i)=\Bigg[\sum\limits_{j=1}^N\alpha_t(j)a_{ji}\Bigg]b_i(o_{t+1}),i=1,2,\dots,N$ （上一次生成状态j，状态j转移为状态i，状态i生成观测的概率）
  $P(o_1,o_2,\dots,o_{t+1}|\lambda)=\sum\limits_{i=1}^N\alpha_{t+1}(i)$
  
  当t=T时：
  $P(O|\lambda)=\sum\limits_{i=1}^N\alpha_T(i)$
  
  算法复杂度（感觉图把i写成j了）：
  
  $\alpha_{t+1}(i)=\sum\limits_{j=1}^N\alpha_t(j)a_{ji}$ （a是状态转移概率）
  因此从t到t+1时刻的计算量为 $O(N^2)$
  对于观测序列长度为T： $O(TN^2)$
模式匹配中的维特比Viterbi算法（动态规划）
给定 $\lambda$ （模型参数）和 $O$ （观测序列），预测最有可能的状态序列
算法思想：若 t 时刻最有可能的状态序列 $I=(i_1,i_2,\dots,i_t^*)$ 通过 $i_t^*$ ，则从t时刻到T时刻的最优路径一定包括 $i_t^*$ 。我们利用这一思想确定了最优状态序列的最后一个时刻的状态 $i_T$ ，然后利用该状态回溯时刻 $t=1,2,\dots,T-1$ 的最优状态

示例：
已知模型 $\lambda=(A,B,\pi)$ ，观测集合 $V=\{O_1,O_2\}$ ，状态集合 $Q=\{1,2,3\}$
$A=\begin{bmatrix} 0.5,0.2,0.3 \\ 0.3,0.5,0.2 \\ 0.2,0.3,0.5 \end{bmatrix},B=\begin{bmatrix} 0.5,0.5\\ 0.4,0.6\\ 0.7,0.3 \end{bmatrix},\pi=(0.2,0.4,0.2)^T$
若观测序列 $O=(O_1,O_2,O_1)$ ，求最优状态序列 $I=(i_1^*,i_2^*,i_3^*)$

解：
定义 $\delta_t(i)$ 是所有长度为t、最终状态为i的、能得到指定观测序列的路径中，概率最大的路径的概率。
定义 $\Psi_t(i)$ 是所有长度为t、最终状态为i的、能得到指定观测序列的路径中，最有可能的倒数第二个节点（倒数第二个时间点概率最大的状态）： $\Psi_t(i)=\argmax\limits_{i\le j\le N}\big[\delta_{t-1}(j)a_{ji}\big]$

根据维特比算法的核心思想，我们计算观测序列下的最优路径：
1. t=1时， $\delta_1(i)$ 是观测为 $o_1$ 、状态为i的概率：
  $\delta_1(i)=\pi_ib_i(O_1),\ i=1,2,3$
  得 $\delta_1(1)=0.2*0.5=0.1,\delta_1(2)=0.16,\delta_1(3)=0.28$
  记 $\Psi_1(i)=0,\ i=1,2,3$
2. t=2时：
  $\delta_2(i)=\max\limits_{1\le j\le3}\big[\delta_1(j)a_{ji}\big]b_i(o_2)$
  $\Psi_2(i)=\argmax\limits_{1\le j\le3}\big[\delta_1(j)a_{ji}\big],i=1,2,3$
  $\delta_2(1)=\max\limits_j\{0.1*0.5,0.16*0.3,0.28*0.2\},\Psi_2(1)=3$
  类似： $\delta_2(2)=0.0504,\Psi_2(2)=3,\delta_2(3)=0.042,\Psi_2(3)=3$
3. t=3时：
  $\delta_3(i)=\max\limits_{1\le j\le3}\big[\delta_2(j)a_{ji}\big]b_i(o_3)$
  $\Psi_3(i)=\argmax\limits_{1\le j\le3}\big[\delta_2(j)a_{ji}\big],i=1,2,3$
  $\delta_3(1)=0.00756,\Psi_3(1)=2,\delta_3(2)=0.01008,\Psi_3(2)=2,\delta_3(3)=0.0147,\Psi_3(3)=3$
  最有可能的路径以 $i_3^*=\argmax_i\big[\delta_3(i)\big]$ 为最终状态
4. 回溯其他时刻的最优节点：
  t=2时， $i_2^*=\Psi_3(i_3^*)=\Psi_3(3)=3$
  t=1时， $i_1^*=\Psi_2(i_2^*)=\Psi_2(3)=3$
  因此最优状态序列是： $I=(i_1^*,i_2^*,i_3^*)=(3,3,3)$