隐马尔科夫模型

最新推荐文章于 2024-07-16 18:07:09 发布

huahuahuahhhh

最新推荐文章于 2024-07-16 18:07:09 发布

阅读量191

点赞数

分类专栏：机器学习文章标签： hmm

本文链接：https://blog.csdn.net/Blankit1/article/details/104901150

版权

机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

本博客是根据隐马尔科夫模型HMM（一）HMM模型、隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率、隐马尔科夫模型HMM（四）维特比算法解码隐藏状态序列做的笔记

一、背景

隐马尔可夫模型用于解决：a. 基于序列的问题；b. 序列有隐藏状态和观测状态。
下图表示的是一个长度为{T}的隐马尔可夫模型。其中状态序列 $I=(i_{1},i_{2},..,i_{T})$ ，观测序列 $O=(O_{1},O_{2},..,O_{T})$ .任意一个隐藏状态 $i_{t}\in Q= \{q_{1},q_{2},..,q_{N}\}$ ，共有 $N$ 种隐藏状态。任意一个观测状态 $O_{t}\in V= \{v_{1},v_{2},..,v_{m}\}，共有$ M $种观测状态$ 。
隐马尔可夫模型可用三个矩阵描述：
1) 初始概率矩阵 $\Pi$ 。 $i_{1}$ 取 ${q_{1},q_{2},..,q_{N}\}$ 的概率。
2) 状态转移矩阵 $A$ .矩阵任意一个元素 $a_{i,j}$ 表示从 $t$ 时刻的隐藏状态 $q_{i}$ 转移到 $t + 1$ 时刻的隐藏状态 $q_{j}$ 的概率，即 $a_{i,j}=P(i_{t+1}=q_{j}|i_{t}=q_{i})$ 。———齐次马尔科夫链假设。即任意时刻的隐藏状态只依赖于它前一个隐藏状态。
3)观测矩阵 $B$ 。矩阵任意一个元素 $b_{j}(O_{t})$ 表示从 $t$ 时刻的隐藏状态 $q_{i}$ 观测到状态 $o_{j}$ 的概率，即 $b_{j}(O_{t})=P(O_{t}|i_{t}=q_{i})$ 。——观测独立性假设。即任意时刻的观察状态只仅仅依赖于当前时刻的隐藏状态。

二、隐马尔科夫观测序列的生成

在这里插入图片描述

三、隐马尔科夫模型的三个基本问题

评估观察序列的概率。即给定模型参数 $\lambda=(A,B,\Pi)$ 和观测序列 $O=(O_{1},O_{2},..,O_{T})$ 。计算 $P(O|\lambda)$ 。这个问题用到前向后向算法。
模型参数学习。给定观测序列 $O=(O_{1},O_{2},..,O_{T})$ ，估计模型参数 $\lambda=(A,B,\Pi)$ ，使该模型 $P(O|\lambda)$ 最大。这个问题用到EM算法的鲍姆-韦尔算法
预测问题，也称解码问题。给定模型参数 $\lambda=(A,B,\Pi)$ 和观测序列 $O=(O_{1},O_{2},..,O_{T})$ ，求给定观测序列条件下，最可能出现的状态序列。这个问题求解需要用到基于动态规划的维特比算法。

四、前向后向算法

评估观察序列的概率。即给定模型参数 $\lambda=(A,B,\Pi)$ 和观测序列 $O=(O_{1},O_{2},..,O_{T})$ 。计算 $P(O|\lambda)$

暴力求解
前向算法

前向算法本质上属于动态规划的算法，也就是我们要通过找到局部状态递推的公式，这样一步步的从子问题的最优解拓展到整个问题的最优解。

$\alpha_{t}(j)a_{ji}$ —— $t$ 时刻的隐藏状态是 $q_{j}$ ， $t + 1$ 时刻的隐藏状态是 $q_{i}$ ,且观测序列是 $O_{1},O_{2},...,O_{t}$ 的概率。

$\begin{aligned} \alpha_{t}(j)a_{ji}&=P(O_{1},O_{2},...,O_{t},i_{t}=q_{j}|\lambda)*P(i_{t+1}=q_{i}|i_{t}=q_{j})(1)\\ &= P(O_{1},O_{2},...,O_{t}|i_{t}=q_{j},\lambda)*P(i_{t}=q_{i},\lambda)*P(i_{t+1}=q_{i}|i_{t}=q_{j})(2)\\ &= P(O_{1},O_{2},...,O_{t},i_{t+1}=q_{i}|P(i_{t}=q_{j},\lambda)*P(i_{t}=q_{i},\lambda)(3)\\ &= P(O_{1},O_{2},...,O_{t},i_{t}=q_{j},i_{t+1}=q_{i}|\lambda) \end{aligned}$
$\Sigma_{j=1}^{N}\alpha_{t}(j)a_{ji}= P(O_{1},O_{2},...,O_{t},i_{t+1}=q_{i}|\lambda)$
类似于（1）~（3）式的变化过程，下列的式子可化为
$\begin{aligned} [\Sigma_{j=1}^{N}\alpha_{t}(j)a_{ji}]b_{i+1}(O_{t+1})&= P(O_{1},O_{2},...,O_{t},i_{t+1}=q_{i}|\lambda)*P(O_{t+1}|i_{t+1}=q_{i})\\ &=P(O_{1},O_{2},...,O_{t},O_{t+1},i_{t+1}=q_{i}|\lambda)\\ &=\alpha_{t+1}(i) \end{aligned}$
实现了 $\alpha_{t}$ 到 $\alpha_{t+1}$ 的递推
在这里插入图片描述

后向算法
后向算法与前向算法类似，参考

五、一些概率

给定时刻 $t$ ，参数 $\lambda$ 和观测序列，求 $P(i_{t}=q_{i}|O,\lambda)$
$\gamma_{t}(i)=P(i_{t}=q_{i}|O,\lambda)$

$\begin{aligned} \gamma_{t}(i) &=P(i_{t}=q_{i}|O,\lambda)\\ &=\frac{P(i_{t}=q_{i},O|\lambda)}{P(O|\lambda)}\\ &=\frac{P(i_{t}=q_{i},O_{1},O_{2},...,O_{t},O_{t+1},...,O_{T}|\lambda)}{P(O|\lambda)}\\ &=\frac{P(O_{1},O_{2},...,O_{t},O_{t+1},...,O_{T}|i_{t}=q_{i},\lambda)*P(i_{t}=q_{i})}{P(O|\lambda)}\\ &=\frac{P(O_{1},O_{2},...,O_{t},|i_{t}=q_{i},\lambda)*P(i_{t}=q_{i})*P(O_{t+1},...,O_{T}|i_{t}=q_{i},\lambda)}{P(O|\lambda)}\\ &=\frac{P(O_{1},O_{2},...,O_{t},i_{t}=q_{i},\lambda)*P(O_{t+1},...,O_{T}|i_{t}=q_{i},\lambda)}{P(O|\lambda)}\\ &=\frac{\alpha_{t}(i)\beta_{t}(i)}{P(O|\lambda)}\\ &=\frac{\alpha_{t}(i)\beta_{t}(i)}{\Sigma_{i=1}^{N}\alpha_{t}(i)\beta_{t}(i)}\\ \end{aligned}$

给定模型参数 $\lambda$ 和观测序列O,在时刻 $t$ 处于状态 $q_{i}$ ，且时刻 $t + 1$ 处于状态 $q_{j}$ 的概率记为:
$\xi_{t}=P(i_{t}=q_{i},i_{t+1}=q_{j}|O,\lambda)$

$\begin{aligned} \xi_{t} &=P(i_{t}=q_{i},i_{t+1}=q_{j}|O,\lambda)\\ &=\frac{P(i_{t}=q_{i},i_{t+1}=q_{j},O|\lambda)}{P(O|\lambda)} (1)条件概率公式，O作为条件乘进去\\ &=\frac{P(i_{t+1}=q_{j},O|i_{t}=q_{i},\lambda)*P(i_{t}=q_{i})}{P(O|\lambda)} (2)分离出P(i_{t}=q_{i})\\ &=\frac{P(i_{t+1}=q_{j},O_{1},O_{2},...,O_{t},O_{t+1},...,O_{T}|i_{t}=q_{i},\lambda)*P(i_{t}=q_{i})}{P(O|\lambda)} (3)展开O\\ &=\frac{P(O_{1},O_{2},...,O_{t}|i_{t}=q_{i},\lambda)*P(i_{t+1}=q_{j},O_{t+1},...,O_{T}|i_{t}=q_{i})*P(i_{t}=q_{i})}{P(O|\lambda)}(4)分开O为O_{1}~O_{t}和O_{t}~O_{T}\\ &=\alpha_{t}(i)*\frac{P(i_{t+1}=q_{j},O_{t+1},...,O_{T}|i_{t}=q_{i})}{P(O|\lambda)}(5)合并\alpha_{t}(i)\\ &=\alpha_{t}(i)*\frac{P(i_{t}=q_{i},i_{t+1}=q_{j},O_{t+1},...,O_{T})}{P(i_{t}=q_{i})*P(O|\lambda)}(6)去掉i_{t}=q_{i}这个条件\\ &=\alpha_{t}(i)*\frac{P(i_{t}=q_{i},O_{t+1},...,O_{T}|i_{t+1}=q_{j})*P(i_{t+1}=q_{j})}{P(i_{t}=q_{i})*P(O|\lambda)}(7)加上i_{t+1}=q_{j}这个条件\\ &=\alpha_{t}(i)*\frac{P(i_{t}=q_{i}|i_{t+1}=q_{j})*P(O_{t+1},...,O_{T}|i_{t+1}=q_{j})P(i_{t+1}=q_{j})}{P(i_{t}=q_{i})*P(O|\lambda)}(8)在i_{t+1}=q_{j}时，i_{t}=q_{i}与O_{t+1},...,O_{T}独立\\ &=\alpha_{t}(i)*P(O_{t+1}|i_{t+1}=q_{j})*P(O_{t+2},...,O_{T}|i_{t+1}=q_{j}）\frac{P(i_{t}=q_{i}|i_{t+1}=q_{j})*P(i_{t+1}=q_{j})}{P(i_{t}=q_{i})*P(O|\lambda)}(8)在i_{t+1}=q_{j}时，O_{t+1}与O_{t+2},...,O_{T}独立\\ &=\alpha_{t}(i)*b_{j}(O_{t+1})*\beta_{j}(t+1)*\frac{P(i_{t}=q_{i}|i_{t+1}=q_{j})*P(i_{t+1}=q_{j})}{P(i_{t}=q_{i})*P(O|\lambda)}(9)b和\beta公式化简\\ &=\alpha_{t}(i)*b_{j}(O_{t+1}*\beta_{j}(t+1)*\frac{P(i_{t+1}=q_{j}|i_{t}=q_{i})}{P(O|\lambda)}(10)公式化简\\ &=\frac{\alpha_{t}(i)b_{j}(O_{t+1})\beta_{j}(t+1)a_{ij}}{P(O|\lambda)}(10)公式化简\\ \end{aligned}$
$P(O|\lambda)=\Sigma_{r=1}^{N}\Sigma_{s=1}^{m}\alpha_{r}(i)b_{s}(O_{t+1})\beta_{s}(t+1)a_{rs}$
$\xi_{t}=\frac{\alpha_{t}(i)b_{j}(O_{t+1})\beta_{j}(t+1)a_{ij}}{\Sigma_{r=1}^{N}\Sigma_{s=1}^{m}\alpha_{r}(i)a_{rs}b_{s}(O_{t+1})\beta_{s}(t+1)}$
在这里插入图片描述