隐马尔可夫模型原理介绍

最新推荐文章于 2025-04-06 14:11:51 发布

林ch

最新推荐文章于 2025-04-06 14:11:51 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/linchuhai/article/details/91542210

版权

1. 引言

隐马尔可夫模型（Hidden Markov Model，HMM）是可用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型，以下统一用简称HMM表示。HMM在语音识别、自然语言处理等都有着广泛的应用。

2. HMM原理介绍

2.1 HMM模型的定义

HMM模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成不可观测的状态的序列称为状态序列；每个状态生成一个观测，再由此产生的观测的随机序列，称为观测序列。序列的每一个位置可以看作是一个时刻。

HMM模型由初始概率分布、状态转移概率分布、观测概率分布确定。设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合，即：
$Q=\left\{q_{1}, q_{2}, \cdots, q_{N}\right\}, \quad V=\left\{v_{1}, v_{2}, \cdots, v_{M}\right\}$ 其中， $N$ 是可能的状态数， $M$ 是可能的观测数。记 $I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列，即：
$I=\left(i_{1}, i_{2}, \cdots, i_{T}\right), \quad O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ 记 $A$ 为状态转移概率矩阵：
$A=\left[a_{i j}\right]_{N \times N}$ 其中， $a_{i j}=P\left(i_{t+1}=q_{j} | i_{t}=q_{i}\right), \quad i=1,2, \cdots, N ; j=1,2, \cdots, N$ ，即在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率。

记 $B$ 为观测概率矩阵：
$B=\left[b_{j}(k)\right]_{N \times \mu}$ 其中， $b_{j}(k)=P\left(o_{t}=v_{k} | i_{t}=q_{j}\right), \quad k=1,2, \cdots, M ; j=1,2, \cdots, N$ 是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。

记 $\pi$ 为初始状态概率向量：
$\pi=\left(\pi_{i}\right)$ 其中， $\pi_{i}=P\left(i_{1}=q_{i}\right), \quad i=1,2, \cdots, N$ ，表示时刻 $t = 1$ 处于状态 $q_i$ 的概率。

因此，HMM模型 $\lambda$ 可以用三元符号表示，即：
$\lambda=(A, B, \pi)$ $\pi$ 称为HMM模型的三要素。

从HMM模型的定义可以发现，HMM其实做了两个基本的假设：

齐次马尔可夫性假设：即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关，即
$P\left(i_{t} | i_{t-1}, o_{t-1}, \cdots, i_{1}, o_{1}\right)=P\left(i_{t} | i_{t-1}\right), \quad t=1,2, \cdots, T$
观测独立性假设：即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他的观测和状态无关。即
$P\left(o_{t} | i_{t}, o_{t}, i_{t-1}, o_{t-1}, \cdots, i_{t+1}, o_{t+1}, i_{t}, i_{t-1}, o_{t-1}, \cdots, i_{1}, o_{1}\right)=P\left(o_{t} | i_{t}\right)$

2.2 概率计算方法

概率计算即给定模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，计算在模型 $\lambda$ 下，观测序列 $O$ 出现的概率 $\lambda)$ 。

2.2.1 直接计算法

直接计算法是通过列举所有可能的长度为 $T$ 的状态序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ ，求各个状态序列 $I$ 和观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ 的联合概率 $\lambda)$ ，然后对所有可能的状态序列求和，得到 $\lambda)$ 。