隐马尔科夫模型（Hidden Markov Model, HMM）

最新推荐文章于 2021-11-24 23:45:47 发布

yoyooyooo

最新推荐文章于 2021-11-24 23:45:47 发布

阅读量316

点赞数

分类专栏：算法整理

本文链接：https://blog.csdn.net/YY_Tina/article/details/91995627

版权

算法整理专栏收录该内容

15 篇文章 2 订阅

订阅专栏

定义

一个隐马尔科夫模型由2个随机过程 ${x_k, y_k\}$ 组成

$x_k$ 是不可观测到的有限状态 $S = \{S_1, S_2, ..., S_k\}$ 集合（马式链）
$y_k$ 是可观测到的有限状态的集合（观测链）

组成

一个隐马尔科夫模型可以表现为下图：
在这里插入图片描述
由上图可知，一个隐马尔科夫模型由5个部分组成：

隐状态空间 $S$ （状态空间）
$S = \{s_1, s_2, ..., s_n\}$ ，即所有隐藏状态的集合
观测空间 $O$
$O = \{o_1, o_2, ..., o_m\}$ ，即所有观测状态的集合
初始状态概率空间 $\Pi$
$\Pi=\{\pi_1, \pi_2, ..., \pi_n\}$ ，个数和状态集合个数相同，代表了各个状态能在 $t = 1$ 时刻出现的概率
隐状态转移概率矩阵 $A$
$A = \{a_{i, j}| 状态i转移到状态j的概率\}$
观测值生成概率矩阵 $B$
$B = \{b_{i, j}|状态i生成观测j的概率\}$

所以记一个HMM的参数 $\lambda$ 为一个五元组
$\lambda = \{S, O, \Pi, A, B\}$
通常记为
$\lambda = \{\Pi, A, B\}$

本篇中，记

$N$ 为状态集合元素个数
$M$ 为观测集合元素个数
$T$ 为序列中元素个数
$Q = \{q_1, q_2, ..., q_N\}$ 为隐藏状态集合
$V = \{v_1, v_2, ..., v_N\}$ 为显性观测集合
$I = \{i_1, i_2, ..., i_T\}$ 为状态序列
$O = \{o_1, o_2, ..., o_T\}$ 为观测序列
$\Pi=\{\pi_1, \pi_2, ..., \pi_n\}$ 为初始状态概率
$A = \{a_{i, j}| 状态i转移到状态j的概率\}$ 为状态转移矩阵
$B = \{b_{i, j}|状态i生成观测j的概率\}$ 为生成矩阵

面临的问题

对于隐马尔科夫模型来说，他有三类问题

评估问题 evaluation
给定模型参数 $\lambda$ 和观测序列 $O$ ，求解在该模型下，给定的观测序列出现的概率 $P(O|\lambda)$
使用前向算法/后向算法
解码问题 decoding
给定模型参数 $\lambda$ 和观测序列 $O$ ，求解在该模型下，可以生成该观测序列概率最大的隐藏状态序列 $I$
使用维特比算法
学习问题 learning
给定一串观测序列 $O$ ，求解能生成这个观测序列的模型参数 $\lambda$ （参数训练）
使用Baum-Welch算法

评估问题

对于某一个观测值，都有 $N$ 种状态可以生成它，所以对于一串观测值 $O=\{o_1, o_2, ..., o_T\}$ ，产生的隐藏状态序列 $I=\{i_1, i_2, ..., i_T\}$ 共有 $N^T$ 种可能性，所以枚举的话时间复杂度会过高

所以采用前向/后向算法降低计算量

前向算法

前向变量： $\alpha_t(i) = P(o_1, o_2, ..., o_t, i_t = q_i|\lambda)$ ，表示了到 $t$ 时刻为止，生成了部分给定的观测序列 ${o_1, o_2, ..., o_t\}$ ，且 $t$ 时刻处于状态 $Q_i$ 的概率

前向计算步骤：

初始化 $\alpha_1(i), i∈[1, N]$
即 $t = 1$ 时刻，生成了一个隐藏状态 $q_i$ ，且生成了观测点 $o_1$ 的概率
$\alpha_1(i) = \pi_{q_i}b_{qi o_1}$
递推 $\alpha_t(i), t∈[2, T], i∈[1, N]$
对 $t \in [2, T]$ ， $i \in [1, N]$ ， $\alpha_t(i)$ 表示到 $t$ 时刻为止，生成了部分给定的观测序列 ${o_1, o_2, ..., o_t\}$ ，且 $t$ 时刻处于 $q_i$ 状态的概率
根据全概率公式，易知， $\alpha_t(i)$ 可以通过所有的 $\alpha_{t-1}(i), i∈[1, N]$ 进行计算
$\alpha_t(i) = \sum_{j=1}^{N}{\alpha_{t-1}(j)a_{Q_j Q_i}b_{Q_i o_t}}$
结束
对 $t = T$ 时刻的所有状态 $\alpha_T(i), i∈[1, N]$ 进行求和操作，得到最后的概率

举例：
在这里插入图片描述

后向算法

后向变量： $\beta_t(i) = P(o_{t+1}, o_{t+2}, ..., o_T| i_t = q_i, \lambda)$ ，表示了在 $t$ 时刻处于状态 $q_i$ 的情况下，生成了部分给定的观测序列 ${o_{t+1}, o_{t+2}, ..., o_T\}$ 的概率

后向计算步骤：

初始化 $\beta_T(i), i∈[1, N]$
当 $t = T$ 的时候，由于到此为止所有的观测序列已经生成，无论处于何种状态下一个时刻都结束了，所以
$\beta_T(i) = 1, i∈[1, N]$
递推 $\beta_t(i), t∈[2, T], i∈[1, N]$
同样根据全概率公式， $\beta_t(i) =$ $t$ 时刻所处的状态 $q_i$ 转换到 $t + 1$ 时刻 $q_j$ 的概率 $\times$ 改状态生成状态 $o_{t+1}$ 的概率
$\beta_t(i) = \sum_{j = 1}^{N}{a_{q_i q_j}b_{q_j o_{t+1}}\beta_{t+1}(j)}$
结束
所有生成初始状态的可能性 $\times$ 初始状态生成 $o_1$ 的可能性 $×\beta_1(i)$
∵ $\beta_1(i)$ 是已知生成序列 ${o_2, o_3, ..., o_T\}$

举例：
后向不太好理解，所以假设有两个骰子，一个是4面骰，一个是6面骰，骰子都是等重的，两者之间的转换为
在这里插入图片描述
设观测序列为 $\ 6 \ 2 \ 3$ 则有

解码问题

有基础概念：如果概率最大的路径 $P$ 经过某个点，那么这条路径上从起点到该点的路径一定是最短路径，否则，用更短的路径代替这条，总路径也会变短

总体思想和前向算法一样，只是把求和换成求 $m a x$ ，所以举一个例子即可

假设有

3个盒子（box1, box2, box3）【3个状态】
2个球（red、white）【2种观测值】
依次拿出3个球，表现为 $O (r e d, w h i t e, r e d)$ 【观测序列】

求解最有可能的盒子拿取顺序

初始化
$\delta_0(1) = \pi_1 \times P(red|box1) \\ \delta_0(2) =\pi_2 \times P(red|box2) \\ \delta_0(3) =\pi_3 \times P(red|box3)$
递推
$\delta_1(1) =max\{\delta_0(1) \times P(box1 → box1), \delta_0(2) \times P(box2 → box1), \delta_0(3) \times P(box3 → box1)\} \times P(white|box1) \\ \delta_1(2) =max\{\delta_0(1) \times P(box1 → box2), \delta_0(2) \times P(box2 → box2), \delta_0(3) \times P(box3 → box2)\} \times P(white|box1) \\ \delta_1(3) =max\{\delta_0(1) \times P(box1 → box3), \delta_0(2) \times P(box2 → box3), \delta_0(3) \times P(box3 → box3)\} \times P(white|box1) \\$
…
依次递推即可

学习问题

已知观测序列 $O(o_1, o_2, ..., o_T)$ ，估计模型参数 $\lambda=(A, B, \Pi)$ ，使该模型下观测序列 $P(O|\lambda)$ 最大
首先明确几个有用的概率公式：

在 $t$ 时刻为状态 $q_i$ 的概率
$\gamma_t(i) = \frac{\alpha_t(i)\beta_t(i)}{\sum_{i=1}^{N}{\alpha_t(i)\beta_t(i)}}$
分子是 $t$ 时刻为状态 $q_i$ ，分母是 $t$ 时刻为所有状态
在 $t$ 时刻为状态 $q_i$ ，且 $t + 1$ 时刻为状态 $q_j$ 的概率
$\xi_t(i, j) = \frac{\alpha_t(i)a_{i, j}b_{i, o_{t + 1}}\beta_{t+1}(i)}{\sum_{i=1}^{N}\sum_{j=1}^{N}{\alpha_t(i)a_{i, j}b_{j, o_{t+1}}\beta_{t+1}(i)}}$
分子是 $t$ 时刻为状态 $q_i$ 且 $t + 1$ 时刻为状态 $q_j$ ，分母是 $t$ 时刻为所有状态且 $t + 1$ 时刻为任意状态

那么转移概率矩阵A的递推公式通过常态来表述，就是
$a_{i, j} = \frac{整条序列状态i转换到状态j的次数}{整条序列出现状态i的次数}$
用期望/概率来代替次数，有
$a_{i, j} = \frac{\sum_{t=1}^{T-1}\xi_t(i, j)}{\sum_{t=1}^{T-1}\gamma_t(i)}$

生成矩阵B
$b_{i, j} = \frac{整条序列出现状态i且生成的观测值为j的次数}{整条序列出现状态i的次数}$
用期望/概率来代替次数，有
$b_i(k) = \frac{\sum_{t=0, O_t=v_k}^{T}{\gamma_t(i)}}{\sum_{t=1}^{T}{\gamma_t(i)}}$