隐马尔科夫模型（HMM）原理

最新推荐文章于 2023-06-13 10:45:54 发布

minjialong

最新推荐文章于 2023-06-13 10:45:54 发布

阅读量481

点赞数 1

分类专栏：算法原理机器学习文章标签： HMM 隐马尔可夫模型

本文链接：https://blog.csdn.net/minjialong/article/details/99940255

版权

算法原理同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

马尔科夫链

马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合。具体地，随机变量集合 $\bold X=\{X_n:n>0\}$ ，若随机变量的取值都在数据集内 $X_n =s_i, s_i \in \bold s$ ，且随机变量的条件概率满足如下关系：
$p(X_{t+1}|X_t,X_{t-1},...,X_2,X_1) = p(X_{t+1}|X_t)$ 则 $\bold X$ 被称为马尔可夫链， $\bold s$ 被称为状态空间，马尔可夫链在状态空间内的取值称为状态。
用通俗易懂的话就是：当前状态只依赖于前一时刻的状态，与其他时刻状态无关。

隐马尔可夫模型

隐马尔可夫模型中引入了隐状态，隐状态符合马尔可夫链特性。示意图如下：

隐马尔可夫模型（HMM）可以用五个元素来描述，包括2个状态集合和3个概率矩阵：
1. 隐含状态 $Q=\{q_1,...,q_N\}$ 。隐状态的数量为 $N$ ，这些状态之间满足马尔可夫性质，是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到，当前状态只依赖于前一时刻的状态。满足齐次马尔可夫假设，可以用一下公式来描述( $i_t$ 表示t时刻的状态)：
$p(i_t | i_{i-1}...,i_2,i_1) = p(i_t|i_{t-1})$ 2. 可观测状态 $V=\{v_1,...,v_M\}$ 。观测序列的数量为 $M$ ，在模型中与隐含状态相关联，可通过直接观测而得到，当前时刻的观测值只依赖于当前时刻的状态。满足观测独立性假设，可以用以下公式描述( $o_t$ 表示t时刻的观测序列):
$p(o_t | o_{t-1},...,o_1, i_t,i_{t-1},...,i_1) = p(o_t | i_t)$ 3. 初始状态概率矩阵 $\pi$ 。表示隐含状态在初始时刻t=1的概率矩阵，也就是t=1时刻出现各种状态的概率。例如t=1时， $p(q_1)=p_1,\space p(q_2)=p_2, \space p(q_3)=p_3$ ，则初始状态概率矩阵 $\pi =[ p_1, p_2, p_3 ]$ .
4. 隐含状态转移概率矩阵 $A$ 。描述了HMM模型中各个状态之间的转移概率。 $A$ 的维度为 $(N, N)$ ，其中 $a_{ij}=p(i_{t+1}=q_j | i_{t}=q_i)\space \space (1 <= i, j <= N)$ 表示在 t 时刻、状态为 $q_i$ 的条件下，在 t+1 时刻状态是 $q_j$ 的概率。
5. 观测状态转移概率矩阵 $B$ 。描述了HMM模型中各个状态到观测序列的概率。 $B$ 的维度为 $(N, M)$ ，则： $b_{j}(k)=p(o_t=v_k | i_t=q_j), \space \space 1 \le j \le N,1 \le k \le M$ , 表示在 t 时刻、隐含状态是 $q_j$ 条件下，观察状态为 $v_k$ 的概率。
一般的，可以用 $\lambda = (A,B,\pi)$ 三元组来简洁的表示一个隐马尔可夫模型。隐马尔可夫模型实际上是标准马尔可夫模型的扩展，添加了可观测状态集合和这些状态与隐含状态之间的概率关系。

三个问题

评价问题
问题描述：此问题主要是在已知模型参数 $\lambda = (A,B,\pi)$ 的条件下，求给定观测序列出现的概率。设状态序列为 $I=\{i_1, i_2,...,i_T\}$ ：，其对应的观测序列为： $O=\{o_1, o_2,...,o_T\}$ ，概率可以表示为：
$\begin{aligned} p(O | \lambda) &= \sum_I p(O, I | \lambda) \\ &= \sum_I p(O | I, \lambda)p(I | \lambda) \end{aligned}$
由于状态序列 $I$ 的长度为 $T$ ，每个状态有 $N$ 种可能，所以状态序列 $I$ 共有 $N^T$ 种可能，然后每种可能计算与观测序列O的概率，所以时间复杂度为： $O(TN^T)$ 。对于此方法的时间复杂度太高，实际上不可行。
当状态数量过多或状态序列长度过大时，直接求解就会相当困难，于是需要使用其他可行的算法代替。这里介绍两种算法：前向算法和后向算法。
前向算法
首先，我们设在时刻 $t$ 的状态为 $q_i$ ，且观测序列为 $o_1, o_2,...,o_t$ 的概率为:
$\alpha_t(i)=p(o_1, o_2,...,o_t, i_t=q_i | \lambda)$
接着，我们设在时刻 $t$ 的状态为 $q_j$ ，且观测序列为 $o_1, o_2,...,o_{t+1}$ 的概率为:
$\begin{aligned} \alpha_{t+1}(i) &= p(o_1, o_2,...,o_{t+1}, i_{t+1}=q_i | \lambda) \\ &= \sum_{j=1}^{N}p(o_1, o_2,...,o_{t+1}, i_t=q_j, i_{t+1}=q_i | \lambda) \\ &= \sum_{j=1}^{N}p(o_1, o_2,...,o_t, i_t=q_j, i_{t+1}=q_i| \lambda) p(o_{t+1} | o_1, o_2,...,o_t, i_t=q_j, i_{t+1}=q_i, \lambda)\\ &= \sum_{j=1}^{N}p(o_1, o_2,...,o_t, i_t=q_j, i_{t+1}=q_i| \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda)\\ &= \sum_{j=1}^{N}p(o_1, o_2,...,o_t, i_t=q_j| \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda)p(i_{t+1}=q_i | o_1, o_2,...,o_t, i_t=q_j, \lambda)\\ &= \sum_{j=1}^{N}p(o_1, o_2,...,o_t, i_t=q_j| \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda)p(i_{t+1}=q_i |i_t=q_j, \lambda)\\ &= \sum_{j=1}^{N}\alpha_t(j) b_i(o_{t+1})a_{ji}\\ &= b_i(o_{t+1})\sum_{j=1}^{N}\alpha_t(j) a_{ji}\\ \end{aligned}$
特别的，当 $t = 1$ 时刻， $\alpha_1=b_i(o_1)\pi_i$ ，其中 $1\le i \le N$ 。
后向算法
首先，我们设在时刻 $t$ 的状态为 $q_i$ ，且观测序列为 $o_{t+1}, o_{t+2},...,o_T$ 的概率为:
$\beta_t(i)=p(o_{t+1}, o_{t+2},...,o_T | i_t=q_i, \lambda)$
接着，我们设在时刻 $t - 1$ 的状态为 $q_i$ ，且观测序列为 $o_t, o_{t+1},...,o_T$ 的概率为:
$\begin{aligned} \beta_{t-1}(i) &=p(o_t, o_{t+1},...,o_T | i_{t-1}=q_i, \lambda) \\ &=\sum_{j=1}^Np(o_t, o_{t+1},...,o_T, i_t=q_j | i_{t-1}=q_i, \lambda) \\ &=\sum_{j=1}^Np(o_{t+1},...,o_T, i_t=q_j | i_{t-1}=q_i, \lambda)p(o_t | o_{t+1},...,o_T, i_{t-1}=q_i, i_t=q_j, \lambda) \\ &=\sum_{j=1}^Np(o_{t+1},...,o_T, i_t=q_j |i_{t-1}=q_i, \lambda)p(o_t | i_t=q_j, \lambda) \\ &=\sum_{j=1}^Np(o_{t+1},...,o_T|i_{t-1}=q_i, i_t=q_j, \lambda)p(i_t=q_j | o_{t+1},...,o_T, i_{t-1}=q_i, \lambda)p(o_t | i_t=q_j, \lambda) \\ &=\sum_{j=1}^Np(o_{t+1},...,o_T | i_t=q_j, \lambda)p(i_t=q_j | i_{t-1}=q_i, \lambda)p(o_t | i_t=q_j, \lambda) \\ &=\sum_{j=1}^N\beta_t(j)a_{ij}b_j(o_t) \\ \end{aligned}$
特别的，当 $t = T$ 时刻， $\beta_T(i)= 1$ ，T时刻是最终时刻，无后续，可以任意设置。
预测问题
问题描述：此问题主要是在已知模型参数 $\lambda = (A,B,\pi)$ 的条件下，求出最优可能出现的状态序列。设状态序列为 $I=\{i_1, i_2,...,i_T\}$ ：，其对应的观测序列为： $O=\{o_1, o_2,...,o_T\}$ 。该问题可以表示为：
$arg\max_{I} P(I | O, \lambda)$
维特比算法
首先，我们设在时刻 $t$ 的状态为 $q_i$ ，且观测序列为 $o_1, o_2,...,o_t$ 。此时最有可能的状态序列为：:
$\delta_t(i)= \max_{i_1,i_2, ..i_{t-1}} p(o_1, o_2,...,o_t, i_1, i_2, ..., i_t=q_i | \lambda)$
接着，我们设在时刻 $t$ 的状态为 $q_i$ ，且观测序列为 $o_1, o_2,...,o_{t+1}$ 。此时最有可能的状态序列为：
$\begin{aligned} \delta_{t+1}(i) &= \max_{i_1,i_2, ..i_t} p(o_1, o_2,...,o_{t+1}, i_1, i_2, ..., i_{t+1}=q_i | \lambda) \\ &= \max_{i_1,i_2, ..i_t} p(o_1, o_2,...,o_t, i_1, i_2, ..., i_{t+1}=q_i | \lambda) p(o_{t+1} | o_1, o_2,...,o_t, i_1, i_2, ..., i_{t+1}=q_i, \lambda)\\ &= \max_{i_1,i_2, ..i_t} p(o_1, o_2,...,o_t, i_1, i_2, ..., i_{t+1}=q_i | \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda)\\ &= \max_{i_1,i_2, ..i_t} p(o_1, o_2,...,o_t, i_1, i_2, ..., i_t=q_j | \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda) p(i_{t+1}=q_i | o_1, o_2,...,o_t, i_1, i_2, ..., i_t=q_j, \lambda)\\ &= \max_{i_1,i_2, ..i_t} p(o_1, o_2,...,o_t, i_1, i_2, ..., i_t=q_j | \lambda) p(o_{t+1} | i_{t+1}=q_i, \lambda) p(i_{t+1}=q_i | i_t=q_j, \lambda)\\ &= \max_{i_1,i_2, ..i_t} \delta_t(j)b_i(o_{t+1}) a_{ji}\\ &= \max_{i_t} \delta_t(j)b_i(o_{t+1}) a_{ji}\\ &= \max_{1\le j \le N} \delta_t(j)b_i(o_{t+1}) a_{ji}\\ &= b_i(o_{t+1})\max_{1\le j \le N} \delta_t(j) a_{ji}\\ \end{aligned}$
特别的，当 $t = 1$ 时刻， $\delta_1=b_i(o_1)\pi_i$ ，其中 $1\le i \le N$ 。
学习问题
. 问题描述：此问题是在知道状态序列，观测序列的条件下，求出最有可能的 $\lambda=(A, B, \pi)$ 。该问题使用Baum-Welch 算法解决。该算法目前还没有研究，待后续补上。。。
关于HMM的应用会在后续的分词、词性标注上具体给出，敬请期待！

minjialong

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
隐马尔科夫模型（HMM）原理

马尔科夫链马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合。具体地，随机变量集合 X={Xn:n&gt;0}\bold X=\{X_n:n&gt;0\}X={Xn:n>0}，若随机变量的取值都在数据集内 Xn=si,si∈sX_n =s_i, s_i \in \bold sXn=si,si∈s ，且随机变量的条件概率满足如下关系：p(Xt+1∣Xt,X...
复制链接

扫一扫