隐马尔可夫模型(HMM)

最新推荐文章于 2023-01-31 18:34:28 发布

walkeao

最新推荐文章于 2023-01-31 18:34:28 发布

阅读量614

点赞数 1

分类专栏：机器学习算法-模型小组块文章标签：隐马尔科夫模型 HMM 机器学习模型算法

本文链接：https://blog.csdn.net/Walker_Hao/article/details/78825540

版权

小组块同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

机器学习算法-模型

5 篇文章 0 订阅

订阅专栏

隐马尔可夫模型(HMM)

隐马尔可夫模型HMM
白话HMM
深入HMM
前言
三个要素
两个假设
三个基本问题

概率计算算法
直接计算法
前向算法
后向算法
小结

学习算法
监督学习算法
无监督-EM算法求解

预测算法

参考

白话HMM

HMM定义：隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列(状态序列)，再由各个状态生成一个观测而产生观测随机序列(观测序列)的过程。序列的每一个位置可以看成一个时刻。

图1-HMM基本模型

什么是状态？什么是观测？
举一个简单的例子，假设有两个相同的盒子A,B，A中有红球:白球=1:1，B中有红球:白球=3:1，我们随机选择一个盒子，再从该盒子中拿出一个球，我们发现我们拿出的球是一个红球。如果我们只知道得到的球是红球，我们可以判断它是从哪一个盒子中拿出的吗？不知道！这时红球就对应一个观测( $\ o_1$ )，而它对应的盒子则是一个不可观测的状态( $\ i_1$ )。
现在我们接着上一个例子，我们规定：如果是第一次选择盒子(如 $\ i_1$ )，那么选择两个盒子的概率相等；如果我们当前选择的盒子是A，那么下一次我们就以1/2的概率选择A，1/2的概率选择B；如果我们当前的盒子是B，那么下一次我们就以2/3的概率选择A，1/3的概率选择B。
按照这种规则进行T次，我们是不是会得到一个长度为T的状态序列？每次从选出的盒子里面再随机拿出一个球，我们会不会得到一个长度为T的观测序列？
我们选择盒子的过程是按照先后顺序来的，所以这个过程是时序相关的。到现在为止，我们已经对HMM定义有了了解。
现在我们来了解该模型的参数构成：首先我们第一次选择盒子，选择两个盒子的概率都是1/2，这个概率就是初始状态的概率 $\pi$ ；如果不是第一次选择盒子，那么我们选择下一个盒子的概率是依据当前盒子种类确定的，这个概率是状态转移概率 $a$ ；我们从选出的盒子中拿出每种球的概率就是观测概率 $b$ 。所有的 $a$ 可以构成状态转移概率矩阵 $A$ ，所有的 $b$ 可以构成观测概率矩阵 $B$ 。
隐马尔科夫模型 $\lambda$ 就是由这三个参数确定的，即：

λ = (A, B, π)

$\lambda=(A,B,\pi)$ 隐马尔科夫模型怎么使用以及有什么作用呢？
1. 概率计算问题：给定模型

λ $\lambda$ 和观测序列

O $O$ ，计算在该模型下观测序列

O $O$ 出现的概率

P(O|λ) $P(O|\lambda)$ 。
2. 学习问题：已知观测序列

O $O$ ，估计模型

λ $\lambda$ ，使得

P(O|λ) $P(O|\lambda)$ 达到最大。当人工指定模型参数不可行时，用于根据训练样本学得最优的模型参数。
3. 预测问题：已知模型

λ $\lambda$ 和观测序列

O $O$ ，求使得P(O|I)最大的状态序列。在语音识别任务中，观测值为语音信号，隐藏状态为文字；在输入法中类似。

现在我们是不是对隐马尔科夫模型有了一个直观的认识？是不是感觉很简单？如果你只是想要了解HMM是什么，怎么使用的，用来干什么的，现在可以回去了emmm…

深入HMM

前言

三个要素

隐马尔可夫模型由初始概率分布，状态转移概率分布以及观测概率分布确定。
设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合，即：

Q = {q 1, q 2, . . ., q N}, V = {v 1, v 2, . . ., v M}

$Q=\{q_1,q_2,...,q_N\},\ V=\{v_1,v_2,...,v_M\}$ 其中，N是可能的状态数，M是可能的观测数。

I $I$ 是长度为

T $T$ 的状态序列，

O $O$ 是对应的观测序列，即：

I = (i 1, i 2, . . ., i T), O = (o 1, o 2, . . ., o T)

$I=(i_1,i_2,...,i_T),\ O=(o_1,o_2,...,o_T)$

A $A$ 是状态转移概率矩阵：

A = [a i j] N \times N

$A=[a_{ij}]_{N \times N}$ 其中，

a i j = P (i t + 1 = q j | i t = q i), i = 1, 2, . . ., N; j = 1, 2, . . ., N

$a_{ij}=P(i_{t+1}=q_j|i_t=q_i),\qquad i=1,2,...,N;\ j=1,2,...,N$ 是在时刻

t $t$ 处于状态

qi $q_i$ 的条件下在时刻

t+1 $t+1$ 转移到状态

qj $q_j$ 的概率。

$B$ 是观测概率矩阵：

B = [b j (k)] N \times M

$B=[b_j(k)]_{N \times M}$ 其中，

b j (k) = P (o t = v k | i t = q j), k = 1, 2, . . ., N; j = 1, 2, . . ., N

$b_j(k)=P(o_t=v_k|i_t=q_j),\qquad k=1,2,...,N;\ j=1,2,...,N$

$\pi$ 是初始状态概率向量：

π = (π i)

$\pi=(\pi_i)$ 其中，

π i = P (i 1 = q i), i = 1, 2, . . ., N

$\pi_i=P(i_1=q_i),\qquad i=1,2,...,N$

两个假设

隐马尔科夫链在任意时刻 $t$ 的状态只依赖于其前一个时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。 $P (i t | i t - 1, o t - 1, . . ., i 1, o 1), t = 1, 2, . . ., T$ $P(i_t|i_{t-1},o_{t-1},...,i_1,o_1),\quad t=1,2,...,T$
任意时刻的观测只依赖于该时刻隐马尔科夫链的状态，与其他观测及状态无关。 $P (o t | i T, o T, i t - 1, o t - 1, . . ., i t + 1, o t + 1, i t, i t - 1, o t - 1, . . ., i 1, o 1) = P (o t | i t)$ $P(o_t|i_T,o_T,i_{t-1},o_{t-1},...,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},...,i_1,o_1)=P(o_t|i_t)$

三个基本问题

概率计算问题：给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在该模型下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。
学习问题：已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 参数，使得 $P(O|\lambda)$ 最大。
预测问题：已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求使得P(O|I)最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。

在继续之前，让我们以另外一种角度来看一下HMM:

图2-换个角度看HMM

看着上面的图，我们是不是想到了全连接神经网络和多段图？这个图代表什么含义呢？这个图是HMM各种概率计算的核心。
该图理解如下：假设 $t$ 时刻状态为 $q_i$ ，则 $t+1$ 时刻我们有N中选择方式 $q_j,\ j=1,2,...,N$ ，每一种选择对应一个状态转移概率 $A_{i,j}(=a_{ij})$ ，所以上图绿色框框中表示从第一层(时刻为 $1$ )到最后一层(时刻为 $T$ )所有可能的状态序列，每一条路径表示一个状态序列，如图中黑色线表示路径为 $\ q_2 \to q_1 \to q_N \to q_3...$ ，每一条边表示一个状态转移概率。
针对绿色框框中的每一种可能的状态序列，我们都会产生一个对应的观测序列 $O=(o_1,o_2,...,o_T),\ o_i \in V$ 。

1. 概率计算算法

直接计算法

问题：给定模型 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算观测序列 $O$ 出现的概率。
直接计算方法是列举所有可能的长度为 $T$ 状态序列 $I=(i_1,i_2,...,i_T)$ ，求各个状态序列 $I$ 与观测序列 $O$ 联合分布概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和。
状态序列 $I=(i_1,i_2,...,i_T)$ 的概率是

P (I | λ) = π i 1 a i 1 i 2 a i 2 i 3 . . . a i T - 1 i T

$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$ 给定状态序列 $I=(i_1,i_2,...,i_T)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率是 $P(O|I,\lambda)$ ： $P (O | I, λ) = b i 1 (o 1) b i 2 (o 2) . . . b i T (o T)$ $P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$
则观测序列 $O$ 出现的概率是： $P (O | λ) = \sum I P (O, I | λ) = \sum I P (O | I, λ) P (I | λ)$ $P(O|\lambda)=\sum_{I}P(O,I|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)$ $= \sum I π i 1 a i 1 i 2 a i 2 i 3 . . . a i T - 1 i T b i 1 (o 1) b i 2 (o 2) . . . b i T (o T) (1)$ $=\sum_{I}\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)\qquad(1)$ 上式计算复杂度是 $O(TN^T)$ ，不可行。

前向算法

为了描述方便，首先进行前向概率定义：给定隐马尔科夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率为前向概率，记做：
$α t (i) = P (o 1, o 2, . . ., o t, i t = q i | λ) (2)$ $\alpha_t(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)\qquad(2)$ 我们可以递推求得前向概率 $\alpha_t$ 及观测序列概率 $P(O|\lambda)$ 。
具体怎么求呢？看图：

图3-前向算法

我们假设已经知道 $t$ 时刻状态为 $q_j$ 的概率，那么 $t+1$ 时刻为状态 $q_{i}$ 的概率是不是可以根据状态转移概率得到？( $a_{ji}$ )
在 $t+1$ 时刻的状态 $q_i$ 可由 $t$ 时刻中的N个状态( $q_1,q_2,...,q_N$ )中的一个状态得到，我们对所有的可能性求和即得到 $t+1$ 时刻状态为 $q_i$ 的概率：
$P (i t + 1 = q i | λ) = \sum j = 1 N P (i t = q j | λ) a j i$ $P(i_{t+1}=q_i|\lambda)=\sum_{j=1}^{N}P(i_t=q_j|\lambda)a_{ji}$ 如果再考虑产生观测 $o_{t+1}$ 的概率，那么进一步会得到： $α t + 1 (i) = [\sum j = 1 N α t (j) a j i] b i (o t + 1) (3)$ $\alpha_{t+1}(i)=[\sum_{j=1}^{N}\alpha_t(j)a_{ji}]b_i(o_{t+1})\qquad(3)$
因为初值为 $\alpha_1(i)=\pi_ib_i(o_1)$ ，那么我们就可以从前往后递推得到观测序列 $O$ 出现的概率： $P (O | λ) = \sum i = 1 N α T (i) (4)$ $P(O|\lambda)=\sum_{i=1}^{N}\alpha_T(i)\qquad(4)$

后向算法

首先给出后向概率定义：给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},...,o_T$ 的概率为后向概率，记做：
$β t (i) = P (o t + 1, o t + 2, . . ., o T | i t = q i, λ) (5)$ $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda)\qquad(5)$ 可以用递推的方法求得后向概率 $\beta_t(i)$ 以及观测序列概率 $P(O|\lambda)$ 。
具体怎么求？看图：

图4-后向算法

递推公式怎么得到呢？首先我们知道 $t+1$ 时刻往后的状态和观测出现的概率，那么从 $t$ 时刻往后状态和观测出现的概率只需要把从 $t$ 时刻到 $t+1$ 时刻考虑进去即可。
假设我们现在在 $q_i$ ，那么我们有 $a_{ij}$ 的概率转移到下一时刻的状态 $q_j$ ，而当我们处于状态 $q_j$ 时，我们可以以概率 $\beta_{t+1}(j)$ 来确定观测序列 $o_{t+2},o_{t+3},...,o_T$ 出现的概率，那我们就可以对所有情况进行一个累加来得到我们在状态 $q_i$ 的条件下得到观测序列 $o_{t+1},o_{t+2},...,o_T$ 的概率。
我们会得到：
$β t (i) = \sum j = 1 N a i j b j (o t + 1) β t + 1 (j) (6)$ $\beta_t(i)=\sum_{j=1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j)\qquad(6)$ 因为我们知道初始概率 $\beta_T(i)=1, i=1,2,...,N$ ，由后往前递推，我们将会得到观测序列 $O$ 出现的概率： $P (O | λ) = \sum i = 1 N π i b i (o 1) β 1 (i) (7)$ $P(O|\lambda)=\sum_{i=1}^{N}\pi_ib_i(o_1)\beta_1(i)\qquad(7)$

小结

利用前向概率和后向概率定义可以将观测序列概率 $P(O|\lambda)$ 写成：
$P (O | λ) = \sum i = 1 N \sum j = 1 N α t (i) a i j b j (o t + 1) β t + 1 (j), t = 1, 2, . . ., T - 1 (8)$ $P(O|\lambda)=\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j),\ t=1,2,...,T-1\qquad(8)$ 当 $t=1$ 和 $t=T-1$ 时分别对应式(4)和式(7)。

2. 学习算法

监督学习算法

假定已知训练数据包含 $S$ 个长度的序观测序列和对应的状态序列 $\{(O_1,I_1),(O_2,I_2),...,(O_S,I_S)\}$ ，那么可以利用极大似然估计法来估计隐马尔可夫模型的参数。
1. 设样本中时刻 $t$ 处于状态 $i$ 时刻 $t+1$ 处于状态 $j$ 的频数为 $A_{ij}$ ，则状态转移概率 $a_{ij}$ 的估计是：
$a^i j = A i j \sum N j = 1 A i j, i = 1, 2, . . ., N; j = 1, 2, . . ., N (9)$ $\hat{a}_{ij}=\frac{A_{ij}}{\sum_{j=1}^{N}A_{ij}},\ i=1,2,...,N;\ j=1,2,...,N \qquad(9)$
2. 设样本中状态为 $j$ 并且观测为 $k$ 的频数为 $B_{jk}$ ，那么状态为 $j$ 观测为 $k$ 的概率 $b_j(k)$ 的估计是： $b^j (k) = B j k \sum M k = 1 B j k, j = 1, 2, . . ., N; k = 1, 2, . . ., M (10)$ $\hat{b}_j(k)=\frac{B_{jk}}{\sum_{k=1}^{M}B_{jk}},\ j=1,2,...,N;\ k=1,2,...,M\qquad(10)$
3. 初始状态概率 $\pi_i$ 的估计 $\hat{\pi}_i$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率。

无监督-(EM算法求解)

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\{O_1,O_2,...,O_S\}$ 而没有对应的状态序列，目标是学习隐马尔可夫模型的参数 $\lambda=(A,B,\pi)$ ，我们将观测序列数据看做观测数据 $O$ ，状态序列数据看做不可观测隐数据 $I$ ，隐马尔可夫模型事实上是一个含有隐变量的概率模型
$P (O | λ) = \sum I P (O | I, λ) P (I | λ)$ $P(O|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)$ 参数学习可以通过EM算法实现：
1. 确定完全数据的对数似然函数 $logP(O,I|\lambda)$ 。
2. EM算法的E步：求 $Q$ 函数 $Q(\lambda,\overline{\lambda})$ ： $Q (λ, λ ¯) = \sum I l o g P (O, I | λ) P (I | O, λ ¯) = \sum I l o g P (O, I | λ) P ( O , I | λ ¯ ) P ( O | λ ¯ )$ $Q(\lambda,\overline{\lambda})=\sum_{I}logP(O,I|\lambda)P(I|O,\overline{\lambda})=\sum_{I}logP(O,I|\lambda)\frac{P(O,I|\overline{\lambda})}{P(O|\overline{\lambda})}$ 为了书写方便，我们省去对 $\lambda$ 而言的常数项因子 $1/P(O|\overline{\lambda})$ ，即： $Q (λ, λ ¯) = \sum I l o g P (O, I | λ) P (O, I | λ ¯) (11)$ $Q(\lambda,\overline{\lambda})=\sum_{I}logP(O,I|\lambda)P(O,I|\overline{\lambda})\qquad(11)$ 其中， $\overline{\lambda}$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔科夫模型参数。 $P (O, I | λ) = π i 1 a i 1 i 2 a i 2 i 3 . . . a i T - 1 i T b i 1 (o 1) b i 2 (o 2) . . . b i T (o T)$ $P(O,I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$ 函数 $Q$ 可以写成： $Q (λ, λ ¯) = \sum I l o g π i P (O, I | λ ¯) + \sum I [\sum t = 1 T - 1 l o g a i t, i t + 1] P (O, I | λ ¯) + \sum I [\sum t = 1 T l o g b i t (o t)] P (O, I | λ ¯)$ $Q(\lambda,\overline{\lambda})=\sum_{I}log\pi_iP(O,I|\overline{\lambda})+\sum_{I}[\sum_{t=1}^{T-1}loga_{i_t,i_{t+1}}]P(O,I|\overline{\lambda})+\sum_{I}[\sum_{t=1}^{T}logb_{i_t}(o_t)]P(O,I|\overline{\lambda})$ 3. EM算法的M步：极大化 $Q$ 函数求解模型参数 $A,B,\pi$ 。这里不再详述求解过程。

3. 预测算法

给定观测序列 $O$ 以及隐马尔可夫模型参数 $\lambda=(A,B,\pi)$ ，如何确定一个最优的观测序列？(对应图2中的一条路径)
学过算法的一般都知道多段图求解最短路径的动态规划求解方法，只不过在求最短路径的时候路径的计算是不同段之间的边长度相加，而在这里则是不同段之间的边代表的状态转移概率相乘。
假定在时刻 $t$ 状态为 $i$ 的所有单个路径 $(i_1,i_2,...,i_t)$ 中概率最大值为 $\delta_t(i)$ ，则动态规划求解的递推关系是：
$δ t + 1 (i) = max 1 ⩽ j ⩽ N [δ t (i) a j i] b i (o t + 1)$ $\delta_{t+1}(i)=\max_{1 \leqslant j \leqslant N}[\delta_{t}(i)a_{ji}]b_i(o_{t+1})$
然后我们在递推的时候对最优路径进行记录。当然这就是鼎鼎有名的维特比算法。

参考

李航《统计学习方法》
周志华《机器学习》
Kevin P. Murphy 《Machine Learning A Probabilistic Persperctive》

walkeao

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
隐马尔可夫模型(HMM)

隐马尔可夫模型(HMM) 隐马尔可夫模型HMM白话HMM深入HMM前言三个要素两个假设三个基本问题概率计算算法直接计算法前向算法后向算法小结学习算法监督学习算法无监督-EM算法求解预测算法参考白话HMM HMM定义：隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列(状态序列)，再由各个状态生成一个观测而产生观测随机序
复制链接

扫一扫