【HMM】Hidden Markov Model

bryant_meng

于 2024-03-20 10:00:41 发布

阅读量980

点赞数 13

分类专栏： Machine Learning 文章标签：人工智能马尔科夫链隐性马尔可夫 HMM

本文链接：https://blog.csdn.net/bryant_meng/article/details/106101554

版权

Machine Learning 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

文章目录

1 HMM 的概念
2 三个基本问题的解法

来自《统计学习方法》—李航

隐马尔可夫模型（Hidden Markov Model，HMM）是可用于标注问题（tagging，给定观测的序列预测其对应的标记序列）的统计学模型，描述由隐藏的马尔科夫链随机生成观测序列的过程，属于生成模型。HMM 在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用。

输入变量与输出变量均为连续变量的预测问题称为回归问题；
输出变量为有限个离散变量的预测问题称为分类问题；
输入变量与输出变量均为变量序列的预测问题称为标注问题。

1 HMM 的概念

1.1 引入

这里写图片描述

马尔可夫模型的观测序列本身就是状态序列；
隐马尔可夫模型的观测序列不是状态序列

1.1.1 Markov property

如果一个过程的“将来”仅依赖“现在”而不依赖“过去”，则此过程具有马尔可夫性，或称此过程为马尔可夫过程。
$X (t + 1) = f (X (t))$

1.1.2 Markov chain

时间和状态都离散的马尔可夫过程称为马尔可夫链

几种典型形状的马尔可夫链

这里写图片描述

(a). 状态转义概率组成的A矩阵没有零值的Markov链
(b). A矩阵有零值的Markov链
(c./d). 左－右形式的Markov链

Probabilistic Graphical Model

1.1.3 一阶离散马尔可夫模型

在这里插入图片描述

有 $N$ 个状态， $S_1$ , $S_2$ … $S_N$
存在一个离散的时间序列 $t = 0, t = 1 \dots\dots$
在每个时刻t，系统只能处于唯一一个状态 $q_t$
下一个时刻所处的状态是随机出现的
当前状态 $q_t$ 只与前面相邻的一个状态 $q_{t-1}$ 有关，与其他状态无关（日光族，积蓄什么的，不存在的）

$P[q_t = j | q_{t-1} = i, q_{t-1} = k] = P[q_t = j | q_{t-1} = i]$

1.2 HMM 的定义

HMM 是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列（state sequence），再由各个状态生成一个观测而产生观测随机序列（观测序列，observation sequence）的过程。

序列的每一个位置又可以看作是一个时刻。

HMM 由初始概率分布、状态转移概率分布以及观测概率分布确定，定义如下：

设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合

$Q = \{q_1,q_2,...,q_N\}，V = \{v_1,v_2,...,v_M\}$

其中， $N$ 是可能的状态数， $M$ 是可能的观测数

$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。
$I = (i_1,i_2,...,i_T)，O = (o_1,o_2,...,o_T)$
$A$ 是状态转移概率矩阵：

$[a_{ij}]_{N \times N}$

其中，

$a_{ij} = P(i_{t+1} = q_j|i_t = q_i), i = 1,2,...,N; j = 1,2,...,N$

是在时刻 $t$ 处于状态 $q_i$ 条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率。

$B$ 是观测概率矩阵：

$[b_j(k)]_{N \times M}$

其中，

$b_j(k) = P(o_t = v_k | i_t = q_j), k=1,2,...,M;j = 1,2,...,N$
是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。

$\pi$ 是初始状态概率向量：

$\pi = (\pi_i)$

其中，

$\pi = P(i_1 = q_i),i=1,2,...,N$

是时刻 $t = 1$ 处于状态 $q_i$ 的概率。

HMM 由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此 HMM $\lambda$ 可用如下的三元符号表示：

$\lambda = (A,B,\pi)$

$A,B,\pi$ 称为 HMM 的三要素。

状态转移概率矩阵 $A$ 与初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

我们仔细分析下有效参数量：

$\pi \in \mathbb{R}^{N}$ ，有效参数量为 $N - 1$ ，因为所有初始状态概率的和要求为 1
$\in \mathbb{R}^{N \times N}$ ，有效参数量为 $N \times N - N$ ，因为每行的概率的和要求为 1
$\in \mathbb{R}^{N \times M}$ ，有效参数量为 $N \times M - N$ ，因为每行的概率的和要求为 1

从定义可知，HMM 作了两个基本假设：

齐次马尔可夫性假设，即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。
观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关。

$P(o_t|i_r,o_r,i_{T-1},o_{T-1},...,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},....,i_1,o_1) = P(o_t | i_t)$

HMM 可以用于标注（tagging），这时状态对应着标记，标注问题是给定观测的序列预测其对应的标记序列（反向操作）。可以假设标注问题的数据是由 HMM 生成的，这样我们可以利用 HMM 的学习和预测算法进行标注。

下面看一个 HMM 的例子。

（盒子和球模型）假设有 4 个盒子，每个盒子里都装有红白两种颜色的球，盒子里红白数如下表所示：

盒子	1	2	3	4
红球数	5	3	6	8
白球数	5	7	4	2

按照下面的方法抽球，产生一个球的颜色的观测序列：开始，从 4 个盒子里以等概率随机选取 1 个盒子，从这个盒子里随机抽出 1 个球，记录其颜色后，放回；然后，从当前盒子随机转移到下一个盒子，规则是：如果当前盒子是盒子 1，那么下一盒子一定是盒子 2，如果当前是盒子 2 或 3，那么分别以概率 0.4 和 0.6 转移到左边或右边的盒子，如果当前是盒子 4，那么各以 0.5 的概率停留在盒子 4 或转移到盒子 3；确定转移的盒子后，再从这个盒子里随机抽出一歌球，记录其颜色，放回去；如此下去重复 4 次，得到一个球的颜色的观测序列：

$O = \{红，红，白，白，红\}$

在这里插入图片描述
在这个过程中，观察者只能观测到球的颜色的序列，观测不到球是从哪个盒子取出的，即观测不到盒子的序列（状态序列）。

在这个例子中有两个随机序列，一个是盒子的序列（状态序列），一个是球的颜色的观测序列（观测序列）。前者是隐藏的，只有后者是可观测的。这是一个 HMM 的例子，根据所给条件，可以明确状态集合、观测集合、序列长度以及模型的三要素。

盒子对应状态，状态的集合是
$Q =\{盒子1，盒子2，盒子3，盒子4\}$
球的颜色对应观测，观测的集合是

$V = \{红，白\},M=2$

状态序列和观测序列长度 $T = 5$
初始概率分布 $\pi$ 为

$\pi = (0.25,0.25,0.25,0.25)^T$

状态转移概率分布 $A$ 为

$\begin{bmatrix} 0& 1& 0& 0\\ 0.4& 0& 0.6& 0\\ 0& 0.4& 0& 0.6\\ 0& 0& 0.5& 0.5 \end{bmatrix}$

观测概率分布 $B$ 为

$\begin{bmatrix} 0.5 & 0.5\\ 0.3 & 0.7\\ 0.6 & 0.4\\ 0.8 & 0.2 \end{bmatrix}$

1.3 观测序列的生成过程

根据 HMM 定义，可以将一个长度为 $T$ 的观测序列 $O=(o_1,o_2,...,o_T)$ 的生成过程描述如下：

输入： HMM $\lambda = (A,B,\pi)$ ，观测序列长度 $T$ ；
输出： 观测序列 $O=(o_1,o_2,...,o_T)$

（1）按照初始状态分布 $\pi$ 产生状态 $i_1$
（2）令 $t = 1$
（3）按照状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o_t$
（4）按照状态 $i_t$ 的状态转移概率分布 { $a_{i_t,i_{t+1}}$ }， $i_{t+1} = 1,2,...,N$
（5）令 $t = t + 1$ ；如果 $t < T$ ，转步（3）；否则，终止

1.4 HMM 的 3 个基本问题

HMM 有三个基本问题：

（1）概率计算问题（评估问题，求观测序列出现的概率）。给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。

（2）学习问题（求HMM模型参数）。已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda = (A,B,\pi)$ 参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。即用极大似然估计的方法估计参数。

（3）预测问题（求状态序列），也称解码（decoding）问题。已经模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。

下面用一个例子，来形象化上面三个问题

赌场的欺诈

在这里插入图片描述

某赌场在投骰子根据点数决定胜负时，暗中采取了如下作弊手段，在连续多次投骰子的过程中，通常使用公平骰子 $S_1$ ，偶尔混进一个灌铅骰子 $S_2$

公平骰子 $S_1$ 和灌铅骰子 $S_2$ 的区别如下：

	骰子 $S_1$	骰子 $S_2$
$1$ 点	1/6	0
$2$ 点	1/6	1/8
$3$ 点	1/6	1/8
$4$ 点	1/6	3/16
$5$ 点	1/6	3/16
$6$ 点	1/6	3/8

一次连续投骰子的过程模拟如下：

时间	1	2	3	4	5	6	7
骰子	$S_1$	$S_1$	$S_1$	$S_2$	$S_1$	$S_1$	$S_1$
投出点数	3	3	4	5	1	6	2

上表中，第二列“骰子”相当于状态序列（隐序列），第三列“投出点数”相当于观测序列（明序列）

问题1—概率计算问题（评估问题）

一个骰子投出的点数记录为，131452，会出现这个点数记录的概率有多大

问题2—学习问题（似然估计）

一个骰子投出的点数记录为，131452，作弊骰子投出各点数的概率是怎么样？公平骰子投出各点数的概率又是怎么样的？赌场是何时换用骰子的（转换概率如何）？——从大量的点数序列样本中学习得出

问题3—预测问题（解码问题）

一个骰子投出的点数记录为，131452，点数序列中的哪些点数是用骰子 $S 2$ 投出的？

2 三个基本问题的解法

2.1 概率计算算法

概率计算问题（评估问题，求观测序列出现的概率）。给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。

一个骰子投出的点数记录为，131452，会出现这个点数记录的概率有多大

本小节介绍计算观测序列概率 $P(O|\lambda)$ 的向前（forward）与向后（backward）算法。先介绍概念上可行但计算上不可行的直接计算法。

2.1.1 直接计算法

给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。最直接的方法是按概率公式直接计算。通过列举所有可能的长度为 $T$ 的状态序列 $I = (i_1,i_2,...,i_T)$ ，求各个状态序列 $I$ 与观测序列 $O=(o_1,o_2,...,o_T)$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$

状态序列 $I = (i_1,i_2,...,i_T)$ 的概率是

$P(I|\lambda) = \pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$

对固定的状态序列 $I = (i_1,i_2,...,i_T)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率是 $P(O|I,\lambda)$

$P(O|I,\lambda) = b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$

$O$ 和 $I$ 同时出现的联合概率为

$P(O,I|\lambda) = P(O|I,\lambda)P(I|\lambda)=\pi_{i_1} b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

然后，对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，也即

$P(O|\lambda) = \sum_IP(O,I|\lambda) = \sum_{i_1,i_2,...,i_T}\pi_{i_1} b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)...a_{i_{T-1}i_T}b_{i_T}(o_T)$

但是，上面公式的计算量很大，是 $O(TN^T)$ 阶的（ $I$ 的所有排列组合是 $T!$ ，采用递归方式计算的话，复杂度是 $T$ ，序列长度 $T$ ，每个位置 $N$ 种情况，也就是 $N^T$ ），这种算法不可行！下面介绍计算观测序列概率 $P(O|\lambda)$ 的有效算法，前向-后向算法（forward-backward algorithm）

未完待续。。。

2.1.2 向前算法

2.1.3 向后算法

2.1.4 一些概率与期望值的计算

2.2 学习算法

2.3 预测算法

bryant_meng

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
【HMM】Hidden Markov Model

文章目录1 引入1.1 Markov property1.2 Markov chain1.3 一阶离散马尔可夫模型2 HMM理论3 HMM中三个基本问题的求解3.1 评估问题3.2 解码问题3.3 学习问题4 HMM在语音识别中的应用5 Matlab 实现基于 HMM 的男女声识别仿真声明：参考程窦华的报告1 引入1.1 Markov property如果一个过程的“将来”仅依赖“现在”而不依赖“过去”，则此过程具有马尔可夫性，或称此过程为马尔可夫过程（日光族，积蓄什么的不存在的）。X(t
复制链接

扫一扫

专栏目录