隐马尔科夫模型HMM详解(1)

最新推荐文章于 2022-04-26 21:59:01 发布

栋次大次

最新推荐文章于 2022-04-26 21:59:01 发布

阅读量1.3k

点赞数 7

分类专栏： speech recognition 文章标签：语音识别隐马尔可夫模型算法人工智能

本文链接：https://blog.csdn.net/weixin_39529413/article/details/117232038

版权

speech recognition 专栏收录该内容

12 篇文章 12 订阅

订阅专栏

隐马尔科夫模型基本概念

先看一个小问题：

问题：假设你是2077年的气候学家，正在进行气候研究，无法获得西安2021年的天气记录。你找到了果冻的日记本，上面列出了果冻这个夏天每天吃的冰淇淋数目。你的目标是：根据观测量（果冻夏天每天吃的冰淇淋数目）估计夏天每天的天气。假设天气只有冷和热两种可能，果冻吃的冰淇淋数目只有1，2，3三种可能。

你的任务是：

给定观测序列 $O$ ，如 $O = (3, 1, 3)$ ，其中每个整数表示果冻当天吃的冰淇淋数目
找出隐藏的天气状态序列 $Q$ ，比如 $Q = (H O T, C O L D, H O T)$

隐马尔科夫模型定义：

隐马尔科夫模型是关于时间序列的概率模型
描述一个隐藏的马尔科夫链随机生成不可观测的状态序列，再由各个状态生成一个观测序列的过程，序列的每个位置又可以看作是一个时刻。

HMM由初始概率分布、状态转移概率分布和观测概率分布决定，当观测为离散值时：

$Q=\left\{q_{1} q_{2} \ldots q_{N}\right\} \quad$ 所有可能的状态的集合 $(N$ 个 $)$
$V=\left\{v_{1} v_{2} \ldots v_{M}\right\} \quad$ 所有可能的观测的集合 $(M$ 个 $)$
$I=\left(i_{1} i_{2} \ldots i_{T}\right) \quad$ 长度为 $T$ 的状态序列，每个来自 $Q$
$O=\left(o_{1} o_{2} \ldots o_{T}\right) \quad$ 长度为 $T$ 的观测序列，每个来自 $V$
$A=\left[a_{i j}\right]_{N \times N} \quad$ 状交转移概率矩阵，其中 $a_{i j}=P\left(i_{t+1}=q_{j} \mid i_{t}=q_{i}\right), i=1,2, \ldots, N ; j=1,2, \ldots, N$ 是在时刻 $t$ 处于状态 $q_{i}$ 的条件下，在时刻 $t + 1$ 转移到状态 $q_{j}$ 的概率
$[b_{j}\left(o_{t}\right)]_{N \times M}$ 观测概率矩阵，其中 $b_{j}\left(o_{t}\right)=P\left(o_{t}=v_{k} \mid i_{t}=q_{j}\right), k=1,2,, \ldots, M ; j=1,2, \ldots, N$ ，是在时刻t处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$\pi=\left(\pi_{i}\right) \quad$ 初始状态概率向量，其中 $\pi_{i}=P\left(i_{1}=q_{i}\right), i=1,2, \ldots, N$ , 是时刻 $t = 1$ 处于状态 $q_i$ 的概率

HMM $\lambda=(A,B,\pi)$ ， $A,B,\pi$ 称为HMM的三要素

HMM的两个基本假设

齐次马尔可夫性假设：隐藏的马尔科夫链在时刻t的状态只与t-1的状态有关

$P(i_t|i_{t-1},o_{t-1},...,i_1,o_1) = P(i_t|i_{t-1}), t=1,2,...,T$
观测独立性假设：观测只与当前时刻的状态有关

$P\left(o_{t} \mid i_{T}, o_{T}, i_{T-1}, o_{T-1}, \ldots, i_{t+1}, o_{t+1}, i_{t}, i_{t-1}, o_{t-1}, \ldots, i_{1}, o_{1}\right)=P\left(o_{t} \mid i_{t}\right)$

HMM的分类

HMM分类	观测	观测概率分布
离散HMM	离散值	离散（概率）	$B=\left[b_{j}\left(o_{t}\right)\right]_{N \times M^{\prime}} o_{t} \in V=\left\{v_{1} v_{2} \ldots v_{M}\right\}$
连续HMM	实数、向量	连续（概率密度函数）	单高斯分布： $b_{j}\left(\boldsymbol{o}_{t}\right)=\mathcal{N}\left(\boldsymbol{o}_{t} ; \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)$ 高斯混合模型： $b_{j}\left(\boldsymbol{o}_{t}\right)=\sum_{m=1}^{M} \alpha_{j m} \mathcal{N}\left(\boldsymbol{o}_{t} ; \boldsymbol{\mu}_{j m}, \boldsymbol{\Sigma}_{j m}\right)$

当HMM的观测概率分布由高斯混合模型表示时，称为GMM-HMM，它广泛应用在语音识别、词性标注等任务。

观测序列的生成过程

长度为T的观测序列 $O=(o_1,o_2,...,o_T)$ 的生成过程如下：

输入：隐马尔科夫模型 $\lambda=(A,B,\pi)$ ，观测序列长度 $T$

输出：观测序列 $O=(o_1,o_2,...,o_T)$

根据初始状态分布 $\pi$ 产生状态 $i_1$
t=1
根据状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o_t$
根据状态 $i_t$ 的状态转移概率分布 ${a_{i_ti_{t+1}}\}$ 产生状态 $i_{t+1}$
t=t+1，如果t<T，转第3步；否则终止

举个小栗子

问题：盒子和球的模型（烂大街栗子）

盒子	1	2	3	4
红球数	5	3	6	8
白球数	5	7	4	2

按照如下方法抽球，并产生球颜色的观测序列：

开始：等概率随机选四个盒子中的一个，从该盒子随机抽一个球，记录颜色放回；
然后从当前盒子随机转移到下一个盒子，从下一个盒子随机抽一个球，记录颜色放回；
转移规则：
- 盒子1 $\rightarrow$ 盒子2
- 盒子2或3 $\rightarrow$ P=0.4左边，P=0.6右边
- 盒子4 $\rightarrow$ P=0.5盒子4，P=0.5盒子3

观察者只能观察到球的颜色序列，观测不到球是从哪个盒子取出的，观测序列：球颜色序列；状态序列（隐藏）：盒子的序列。重复5次：观测序列 $O=\{红,红,白,白,红\}$

QAQ：对应的状态集合，观测集合，初始状态概率向量，状态转移概率矩阵，观测概率矩阵分别是什么？

状态集合： $Q=\{盒子1,盒子2,盒子3,盒子4\}$ ， $N = 4$

观测集合： $V=\{红,白\}$ ， $M = 2$

初始状态概率分布： $\pi = (0.25,0.25,0.25,0.25)^T$

状态转移概率分布： $A=\left[\begin{array}{cccc}0 & 1 & 0 & 0 \\ 0.4 & 0 & 0.6 & 0 \\ 0 & 0.4 & 0 & 0.6 \\ 0 & 0 & 0.5 & 0.5\end{array}\right]$

观测概率分布： $B=\left[\begin{array}{ll}0.5 & 0.5 \\ 0.3 & 0.7 \\ 0.6 & 0.4 \\ 0.8 & 0.2\end{array}\right]$

隐马尔科夫模型的三个基本问题

概率计算问题
- 已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$
- 计算概率 $P(O|\lambda)$
预测问题（解码问题）
- 已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$
- 计算使概率 $P (I ∣ O)$ 最大的状态序列 $I=\left(i_{1} i_{2} \ldots i_{T}\right)$
学习问题
- 已知观测序列 $O=(o_1,o_2,...,o_T)$
- 估计模型 $\lambda$ ，使 $P(O|\lambda)$ 最大

概率计算

已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ， $b_j(o_t)$ 可以是离散的也可以是连续的，计算概率 $P(O|\lambda)$ .

直接计算法

列举所有可能的长度为T状态序列 $I=\left(i_{1} i_{2} \ldots i_{T}\right)$ ，求每个状态序列 $I$ 与观测序列 $O=(o_1,o_2,...,o_T)$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$

直接计算法

状态序列 $I=\left(i_{1} i_{2} \ldots i_{T}\right)$ 的概率是$P(I|\lambda)=\pi_{i_1} a_{i_1 i_2} a_{i_2 i_3}… a_{i_{T-1} i_T} $

对固定的状态序列 $I=\left(i_{1} i_{2} \ldots i_{T}\right)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率是 $P(O|I,\lambda)$

$O$ 和 $I$ 同时出现的联合概率是：
$\begin{aligned} P(O, I \mid \lambda) &=P(O \mid I, \lambda) P(I \mid \lambda) \\ &=\pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i, b} b_{i_{2}}\left(o_{2}\right) \cdots a_{i_{-1} \tau} b_{i_{t}}\left(o_{T}\right) \end{aligned}$

对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率是 $P(O|\lambda)$
$\begin{aligned} P(O \mid \lambda) &=\sum_{l} P(O \mid I, \lambda) P(I \mid \lambda) \\ &=\sum_{i_1,i_2,...,i_T} \pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i i_{2}} b_{i_{2}}\left(o_{2}\right) \cdots a_{h-i_{T}} b_{i_{r}}\left(o_{T}\right) \end{aligned}$

复杂度： $O(TN^T)$ ，为什么？

每个时刻有N个可能的状态，所有T个时刻，状态序列有 $N^T$ 个可能，每个状态序列对应的时间复杂度是 $O (T)$ ，可理解为T次乘法，则总的时间复杂度为 $O(TN^T)$ 。

前向算法

前向概率定义：给定隐马尔科夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_t$ ，且状态为 $q_i$ 的概率为前向概率：
$\alpha_{t}(i)=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right)$

观测序列概率的前向算法

输入：隐马尔科夫模型 $\lambda$ ，观测序列 $O$

输出：观测序列概率 $P(O|\lambda)$

初值： $KaTeX parse error: \tag works only in display equations$

递推：对 $t = 1, 2, . . ., T - 1$
$\alpha_{t+1}(i)=\left[\sum_{j=1}^{N} \alpha_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right) \tag{2}$

终止： $\mid \lambda)=\sum_{i=1}^{N} \alpha_{T}(i) \tag{3}$

前向算法的关键：直接引用前一时刻的计算结果，避免重复计算，复杂度从 $O(TN^T)$ 降到 $O(TN^2)$

问题：（不理解可以略过）

为什么上述公式1成立？使用贝叶斯公式

$\alpha_{1}(i)=P\left(o_{1}, i_{1}=q_{i}\right)=P\left(i_{1}=q_{i}\right) P\left(o_{1} \mid i_{1}=q_{i}\right)=\pi_{i} b_{i}\left(o_{1}\right)$
为什么上述公式3成立？边缘分布
$\begin{array}{c} \alpha_{T}(i)=P\left(o_{1}, o_{2}, \ldots, o_{T}, i_{T}=q_{i} \mid \lambda\right)=P\left(O, i_{T}=q_{i} \mid \lambda\right) \\ P(O \mid \lambda)=\sum_{i=1}^{N} P\left(O, i_{T}=q_{i} \mid \lambda\right)=\sum_{i=1}^{N} \alpha_{T}(i) \end{array}$
为什么上述公式2成立？结合HMM的两个基本假设，贝叶斯公式，边缘分布

$q_t=j$ 与前述 $i_t=q_j$ 等价， $\mathbf{o}_{1}^{t}$ 与 $o_1,o_2,...,o_t$ 等价
$\begin{aligned} \alpha_{t}(j) &=P\left(q_{t}=j, \mathbf{o}_{1}^{t}\right) \\ &=\sum_{i=1}^{N} P\left(q_{t-1}=i, q_{t}=j, \mathbf{o}_{1}^{t-1}, \mathbf{o}_{t}\right) \\ &=\sum_{i=1}^{N} P\left(q_{t}=j, \mathbf{o}_{t} \mid q_{t-1}=i, \mathbf{o}_{1}^{t-1}\right) P\left(q_{t-1}=i, \mathbf{o}_{1}^{t-1}\right) \\ &=\sum_{i=1}^{N} P\left(q_{t}=j, \mathbf{o}_{t} \mid q_{t-1}=i\right) \alpha_{t-1}(i) \\ &=\sum_{i=1}^{N} P\left(\mathbf{o}_{t} \mid q_{t}=j, q_{t-1}=i\right) P\left(q_{t}=j \mid q_{t-1}=i\right) \alpha_{t-1}(i) \\ &=\sum_{i=1}^{N} b_{j}\left(\mathbf{o}_{t}\right) a_{i j} \alpha_{t-1}(i) \end{aligned}$

后向算法

后向概率定义：给定隐马尔科夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 条件下，从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},...,o_{T}$ 的概率为后向概率：
$\beta_{t}(i)=P\left(o_{t+1}, o_{t+2}, \ldots, o_{T} \mid i_{t}=q_{i}, \lambda\right)$

观测序列概率的后向算法

输入：隐马尔科夫模型 $\lambda$ ，观测序列 $O$

输出：观测序列概率 $P(O|\lambda)$

初值： $\beta_{T}(i) = 1, i=1,2,...,N$

递推：对 $t = T - 1, T - 2, . . ., 1$
$\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j), \quad i=1,2, \cdots, N \tag{4}$

终止： $\mid \lambda)=\sum_{i=1}^{N} \pi_{i} b_{i}\left(o_{1}\right) \beta_{1}(i) \tag{5}$

问题：（不理解可以跳过）

公式（5）的证明和上述前向算法证明类似。

公式（4）证明：

$q_t=j$ 与前述 $i_t=q_j$ 等价， $\mathbf{o}_{1}^{t}$ 与 $o_1,o_2,...,o_t$ 等价
$\begin{aligned} \beta_{t}(i) &=P\left(\mathbf{o}_{t+1}^{T} \mid q_{t}=i\right) \\ &=\frac{P\left(\mathbf{o}_{t+1}^{T}, q_{t}=i\right)}{P\left(q_{t}=i\right)} \\ &=\frac{\sum_{j=1}^{N} P\left(\mathbf{o}_{t+1}^{T}, q_{t}=i, q_{t+1}=j\right)}{P\left(q_{t}=i\right)} \\ &=\frac{\sum_{j=1}^{N} P\left(\mathbf{o}_{t+1}^{T} \mid q_{t}=i, q_{t+1}=j\right) P\left(q_{t}=i, q_{t+1}=j\right)}{P\left(q_{t}=i\right)} \\ &=\sum_{j=1}^{N} P\left(\mathbf{o}_{t+1}^{T} \mid q_{t+1}=j\right) \frac{P\left(q_{t}=i, q_{t+1}=j\right)}{P\left(q_{t}=i\right)} \\ &=\sum_{j=1}^{N} P\left(\mathbf{o}_{t+2}^{T}, \mathbf{o}_{t+1} \mid q_{t+1}=j\right) a_{i j} \\ &=\sum_{j=1}^{N} P\left(\mathbf{o}_{t+2}^{T} \mid q_{t+1}=j\right) P\left(\mathbf{o}_{t+1} \mid q_{t+1}=j\right) a_{i j} \\ &=\sum_{j=1}^{N} \beta_{t+1}(j) b_{j}\left(\mathbf{o}_{t+1}\right) a_{i j} \end{aligned}$

预测算法-Viterbi算法

已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ， $b_j(o_t)$ 可以是离散的也可以是连续的，计算使概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ .

用动态规划求概率最大路径（最优路径），一个路径对应一个状态序列。最有路径的特性：如果最优路径在时刻 $t$ 通过节点 $i_t^*$ ，那么这一路径从节点 $i_t^*$ 到终点 $i_T^*$ 的部分路径，对于从 $i_t^*$ 到 $i_T^*$ 的所有可能路径来说必须是最优的。

只需从时刻 $t - 1$ 开始，递推的计算在时刻 $t$ 状态为 $i$ 的各条部分路径的最大概率，直至得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率，时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ，最优路径的终节点 $i_T^*$ 也同时的到。

之后为了找出最优路径的各个结点，从终结点 $i_T^*$ 开始，由后向前逐步求得节点 $i_T^*,...,i_1^*$ ，得到最优路径。

首先引入两个变量 $\delta$ 和 $\psi$ 。定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_t)$ 中概率最大为：
$\delta_{t}(i)=\max _{i_1, i_{2}, \cdots, i_{t-1}} P\left(i_{t}=i, i_{t-1}, \cdots, i_{1}, o_{t}, \cdots, o_{1} \mid \lambda\right), \quad i=1,2, \cdots, N$

由定义可得变量 $\delta$ 的递推式：
$\begin{aligned} \delta_{t+1}(i) &=\max _{i_1, i_2, \cdots, i_t} P\left(i_{t+1}=i, i_{t}, \cdots, i_{1}, o_{t+1}, \cdots, o_{1} \mid \lambda\right) \\ &=\max _{1 \leqslant j \leqslant N}\left[\delta_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right), \quad i=1,2, \cdots, N ; t=1,2, \cdots, T-1 \end{aligned}$

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_t)$ 中概率最大的路径的第 $t - 1$ 个节点为：
$\psi_{t}(i)=\arg \max _{1 \leqslant j \leqslant N}\left[\delta_{t-1}(j) a_{j i}\right], \quad i=1,2, \cdots, N$

Viterbi算法

输入：隐马尔科夫模型 $\lambda$ ，观测序列 $O$

输出：最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

初始化：
$\begin{array}{c} \delta_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), \quad i=1,2, \cdots, N \\ \psi_{1}(i)=0, \quad i=1,2, \cdots, N \end{array}$

递推，对于 $t = 2, 3, . . . T$
$\begin{array}{ll} \delta_{t}(i)=\max _{1 \leqslant j \leqslant N} \left[\delta_{t-1}(j) a_{j i}\right] b_{i}\left(o_{t}\right), & i=1,2, \cdots, N \\ \psi_{t}(i)=\arg \max _{1 \leqslant j \leqslant N}\left[\delta_{t-1}(j) a_{j i}\right], & i=1,2, \cdots, N \end{array}$

终止
$\begin{array}{c} P^{*}=\max _{1 \leqslant i \leqslant N} \delta_{T}(i) \\ i_{T}^{*}=\arg \max _{1 \leqslant i \leqslant N}\left[\delta_{T}(i)\right] \end{array}$

最优路径回溯，对于 $t = T - 1, T - 2, . . ., 1$
$i_t^* = \psi_{t+1}(i_{t+1}^*)$
求得最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$

再吃个栗子：

还是考虑盒子和球模型 $\lambda = (A,B,\pi)$ ，状态集合 $Q=\{1,2,3\}$ ，观测集合 $V=\{红,白\}$

$A=\left[\begin{array}{lll}0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5\end{array}\right], \mathrm{B}=\left[\begin{array}{ll}0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3\end{array}\right], \pi=(0.2,0.4,0.4)^{T}$

设T=3，O=(红,白,红),试用维特比算法求最优状态序列。

（1）初始化。 $\delta_1(i) = \pi_i b_i(o_1)$ ,带入数据： $\delta_1(1) = 0.1$ , $\delta_1(2)=0.16$ , $\delta_1(3)=0.28$ ，记 $\psi_1(i)=0, i=1,2,3$

（2）递推计算： $\delta_2(i) = \max _{1 \le j \le3}[\delta_1(j)a_{ji}]b_i(o_2)$ ,同时记录概率最大路径的前一个状态j， $\psi_2(i) = \arg \max _{1 \le j \le 3}[\delta_1(j)a_{ji}] \quad j=1,2,3$ 。

计算：

$\delta_2(1)=max(0.1\times0.5,0.16\times 0.3,0.28\times 0.2) \times 0.5$ = 0.028

$\psi_2(1) = 3$

$\delta_2(2) = 0.0504，\psi_2(2) = 3$

$\delta_2(3) = 0.042，\psi_2(3) = 3$

当t=3时，

$\delta_{3}(i)=\max _{1 \leqslant j \leqslant 3}\left[\delta_{2}(j) a_{j i}\right] b_{i}\left(o_{3}\right)$
$\psi_{3}(i)=\arg \max _{1 \leqslant j<3}\left[\delta_{2}(j) a_{f}\right]$
$\delta_{3}(1)=0.00756, \quad \psi_{3}(1)=2$
$\delta_{3}(2)=0.01008, \quad \psi_{3}(2)=2$
$\delta_{3}(3)=0.0147, \quad \psi_{3}(3)=3$