（九）统计学习方法 | 隐马尔可夫模型

最新推荐文章于 2024-06-08 07:30:00 发布

zhangts20

最新推荐文章于 2024-06-08 07:30:00 发布

阅读量417

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/Skies_/article/details/109591266

版权

统计学习方法专栏收录该内容

10 篇文章 2 订阅

订阅专栏

文章目录

1.隐马尔可夫模型
- 1.1 简介与定义
- 1.2 观测序列的生成
2. 隐马尔可夫模型的3个基本问题
3. 隐马尔可夫模型总结
参考

1.隐马尔可夫模型

1.1 简介与定义

隐马尔可夫模型 隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不同观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测随机序列，称为观测序列。序列的每一个位置又可以看作是一个时刻。

隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。即：设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合： $Q=\{q_1,q_2,...,q_N\},\ \ \ V=\{v_1,v_2,...,v_M\}$

其中， $N$ 是可能的状态数， $M$ 是可能的观测数。 $I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列： $I=(i_1,i_2,...,i_T),\ \ \ O=(o_1,o_2,...,o_T)$

$A$ 是状态转移矩阵： $A=\left[a_{ij}\right]_{N×N}$

其中： $a_{ij}=P(i_{t+1}=q_j|i_t=q_i),\ \ \ i=1,2,...,N;\ \ \ j=1,2,...,N$

是在时刻 $t$ 处于状态 $q_i$ 的条件下再时刻 $t + 1$ 转移到状态 $q_j$ 的概率。 $B$ 是观测概率矩阵： $B=\left[b_j(k)\right]_{N×M}$

其中： $b_j(k)=P(o_t=v_k|i_t=q_j),\ \ \ k=1,2,...,M;\ \ \ j=1,2,...,N$

是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。 $\pi$ 是初始状态概率向量： $\pi=(\pi_i)$

其中： $\pi_i=P(i_1=q_i),\ \ \ i=1,2,...,N$

是时刻 $t = 1$ 处于状态 $q_i$ 的概率。隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可由以下表示： $\lambda=(A,B,\pi)$

状态转移矩阵 $A$ 和初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。从定义可知，隐马尔可夫模型作了两个基本的假设：

（1）齐次马尔可夫性假设，即假设隐藏的马尔可夫链再任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关： $P(i_t|i_{t-1},o_{t-1},...,i_1,o_1)=P(i_t|i_{t-1}),\ \ \ t=1,2,...,T$

（2）观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关： $P(o_t|i_T,o_T,i_{T-1},o_{T-1},...,i_{t+1},o_{t+1},i_{t-1},o_{t-1},...,i_1,o_1)=P(o_t|i_t)$

例题假设有 $4$ 个盒子，每个盒子里都装有红、白两种颜色的球，盒子里的红、白球数如下：

在这里插入图片描述

现按照下面的方法抽球，产生一个球的颜色的观测序列：

开始，从 $4$ 个盒子里以等概率随机选取 $1$ 个盒子，从这个盒子里随机抽出 $1$ 个球，记录其颜色后，放回；
然后，从当前盒子随机转移到下一个盒子，规则是：如果当前盒子是 $1$ ，那么下一个盒子一定是盒子 $2$ ；如果当前盒子是 $2$ 或 $3$ ，那么分别以概率 $0.4$ 和 $0.6$ 转移到左边或右边的盒子；如果当前盒子是 $4$ ，那么各以 $0.5$ 的概率停留在盒子 $4$ 或转移到盒子 $3$ ；
确定转移的盒子后，再从这个盒子里随机抽出 $1$ 个球，记录其颜色，放回；
如下下去，重复进行 $5$ 次，得到一个球的颜色的观测序列： $O = (红, 红, 白, 白, 红)$

解

在这个过程中，观察者只能观测到球的颜色的序列，观测不到球是从哪个盒子里取出的，即观测不到盒子的序列。在这个例子中有两个随机序列，一个是盒子的序列，一个是球的颜色的序列。前者是隐藏的，只有后者是可观测的。这是一个隐马尔可夫模型，根据所给条件可以明确状态集合、观测集合、序列长度。盒子对应状态，状态的集合是： $Q=\{盒子1,盒子2,盒子3,盒子4\},\ \ \ N=4$

球的颜色对应观测。观测的集合是： $V=\{红,白\},\ \ \ M=2$

状态序列和观测序列长度 $T = 5$ 。初始概率分布为： $\pi=(0.25,0.25,0.25,0.25)^{\rm T}$

状态转移概率分布为： $A=\begin{gathered} \begin{bmatrix} 0 & 1 & 0 & 0\\ 0.4 & 0 & 0.6 & 0\\ 0 & 0.4 & 0 & 0.6\\ 0 & 0 & 0.5 & 0.5 \end{bmatrix} \end{gathered}$

观测概率分布为： $B=\begin{gathered} \begin{bmatrix} 0.5 & 0.5\\ 0.3 & 0.7\\ 0.6 & 0.4\\ 0.8 & 0.2 \\ \end{bmatrix} \end{gathered}$

1.2 观测序列的生成

根据隐马尔可夫模型定义，可以将一个长度为 $T$ 的观测序列 $O=(o_1,o_2,...,o_T)$ 的生成过程描述如下。

观测序列的生成

输入隐马尔可夫模型 $\lambda=(A,B,\pi)$ ，观测序列长度 $T$ ；

输出观测序列 $O=(o_1,o_2,...,o_T)$ 。

（1）按照初始状态分布 $\pi$ 产生状态 $i_1$ ；

（2）令 $t = 1$ ；

（3）按照状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o_t$ ；

（4）按照状态 $i_t$ 的状态转移概率分布状态 ${a_{i_ti_{t+1}}\}$ 产生状态 $i_{t+1}$ ， $i_{t+1}=1,2,...,N$ ；

（5）令 $t = t + 1$ ；如果 $t < T$ ，转向（3）；否则，终止。

2. 隐马尔可夫模型的3个基本问题

隐马尔可夫模型有 $3$ 个基本问题：

（1）概率计算问题 给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ ；

（2）学习问题 已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大；

（3）预测问题 已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求对给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ ，。即给定观测序列，求最有可能的对应的状态序列。

2.1 概率计算方法

2.1.1 直接计算法

给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，计算观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。最直接的方法是按概率公式直接计算。通过列举所有可能的长度为 $T$ 的状态序列 $I=(i_1,i_2,...,i_T)$ ，求各个状态序列 $I$ 与观测序列 $O=(o_1,o_2,...,o_T)$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$ 。状态序列 $I=(i_1,i_2,...,i_T)$ 的概率是： $P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}...a_{i_{T-1}i_T}$

即初始概率乘以每次的转移概率。对固定的状态序列 $I=(i_1,i_2,...,i_T)$ ，观测序列 $O=(o_1,o_2,...,o_T)$ 的概率是： $P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)...b_{i_T}(o_T)$

即观测序列中每一项为状态序列中相应元素的概率。则 $O$ 和 $I$ 同时出现的联合概率为： $\begin{aligned} P(O,I|\lambda)&=P(O|I,\lambda)P(I|\lambda)\\&=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)a_{i_2i_3}...a_{i_{T-1}i_T}b_{i_T}(o_T) \end{aligned}$

然后，对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，即： $\begin{aligned} P(O|\lambda)&=\sum_IP(O|I,\lambda)P(I\lambda)\\&=\sum_{i_1,i_2,...,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)a_{i_2i_3}...a_{i_{T-1}i_T}b_{i_T}(o_T) \end{aligned}$

但是，上式的计算量很大，是 $O(TN^{T})$ 阶的，这种算法是不可行的。

2.1.2 前向算法

前向概率 给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,...,o_T$ 且状态为 $q_i$ 的概率为前向概率，记作： $\alpha_t(i)=P(o_1,o_2,...o_t,i_t=q_i|\lambda)$

可以递推地求得前向概率 $\alpha_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。

观测序列概率的前向算法

输入隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ；

输出观测序列模型 $P(O|\lambda)$ 。

（1）初值： $\alpha_1(i)=\pi_ib_i(o_1),\ \ \ i=1,2,...,N\tag{1}$

（2）递推，对 $t = 1, 2, . . ., T - 1$ ： $\alpha_{t+1}(i)=\left[\sum_{j=1}^N\alpha_t(i)a_{ji}\right]b_i(o_{t+1}),\ \ \ i=1,2,...,N\tag{2}$

（3）终止： $P(O|\lambda)=\sum_{i=1}^N\alpha_T(i)\tag{3}$

例考虑盒子和球模型 $\lambda=(A,B,\pi)$ ，状态集合 $Q=\{1,2,3\}$ ，观测集合 $V=\{红,白\}$ ， $\begin{gathered} A=\begin{bmatrix} 0.5 & 0.2 & 0.3\\ 0.3 & 0.5 & 0.2\\ 0.2 & 0.3 & 0.5 \end{bmatrix},\ \ \ B=\begin{bmatrix} 0.5 & 0.5\\ 0.4 & 0.6\\ 0.7 & 0.3 \end{bmatrix},\ \ \ \pi=\begin{bmatrix} 0.2\\ 0.4\\ 0.4 \end{bmatrix} \end{gathered}$

设 $T = 3$ ， $O = (红, 白, 红)$ ，用前向算法计算 $P(O|\lambda)$ 。

解

（1）计算初值： $\alpha_1(1)=\pi_1b_1(o_1)=0.10$

$\alpha_1(2)=\pi_2b_2(o_1)=0.16$

$\alpha_1(3)=\pi_3b_3(o_1)=0.28$

（2）递推计算：
$\alpha_2(1)=\left[\sum_{i=1}^3\alpha_1(i)a_{i1}\right]b_1(o_2)=0.07700$

$\alpha_2(2)=\left[\sum_{i=1}^3\alpha_1(i)a_{i2}\right]b_2(o_2)=0.11040$

$\alpha_2(3)=\left[\sum_{i=1}^3\alpha_1(i)a_{i3}\right]b_3(o_2)=0.06060$

$\alpha_3(1)=\left[\sum_{i=1}^3\alpha_2(i)a_{i1}\right]b_1(o_3)=0.04187$

$\alpha_3(2)=\left[\sum_{i=1}^3\alpha_2(i)a_{i2}\right]b_2(o_3)=0.03551$

$\alpha_3(3)=\left[\sum_{i=1}^3\alpha_2(i)a_{i3}\right]b_3(o_3)=0.05284$

（3）终止： $P(O|\lambda)=\sum_{i=1}^3\alpha_3(i)=0.13022$

2.1.3 后向算法

后向概率 给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的部分观测序列 $o_{t+1},o_{t+2},...,o_T)$ 的概率为后向概率，记作： $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda)$

可以用递推的方法求得后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。

观测序列概率的后向算法

输入隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ；

输出观测序列模型 $P(O|\lambda)$ 。

（1） $\beta_T(i)=1,\ \ \ i=1,2,...,N\tag{4}$

（2）对 $t = T - 1, T - 2, . . ., 1$ ： $\beta_t(i)=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j),\ \ \ i=1,2,...,N\tag{5}$

（3） $P(O|\lambda)=\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)\tag{6}$

2.2 学习算法

2.2.1 监督学习方法

假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 ${(O_1,I_1),(O_2,I_2),...,(O_S,I_S)\}$ ，那么可以利用极大似然估计法来估计隐马尔可夫模型的参数。

转移概率 $a_{ij}$ 的估计 设样本中时刻 $t$ 处于状态 $i$ 时刻 $t + 1$ 转移到状态 $j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是： $\hat a_{ij}=\frac{A_{ij}}{\sum \limits_{i=1}^N}A_{ij},\ \ \ i=1,2,...,N;\ \ \ j=1,2,...,N\tag{7}$

观测概率 $b_j(k)$ 的估计 设样本中状态为 $j$ 并观测为 $k$ 的频数是 $B_{jk}$ ，那么状态为 $j$ 观测为 $k$ 的概率 $b_{jk}$ 的估计是： $\hat b_j(k)=\frac{B_{jk}}{\sum\limits_{k=1}^MB_{jk}},\ \ \ j=1,2,...,N;\ \ \ K=1,2,...,M\tag{8}$

初始状态概率 $\pi_i$ 的估计 $\hat\pi_i$ 为 $S$ 个样本中初始状态为 $q_i$ 的概率

2.2.2 Baum-Welch算法

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 ${O_1,O_2,...,O_T\}$ 而没有对应的状态序列，目标是学习马尔可夫模型 $\lambda=(A,B,\pi)$ 的参数。我们将观测序列数据看作观测数据 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔可夫模型事实上是一个含有隐变量的概率模型： $P(O|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda)\tag{9}$

它的参数估计可以由 $E M$ 算法实现。

确定完全数据的对数似然函数

所有观测数据写成 $O=(o_1,o_2,...,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,...,i_T)$ ，完全数据是 $O,I)=(o_1,o_2,...,o_T,i_1,i_2,...,i_T)$ 。完全数据的对数似然函数是 $\log P(O,I|\lambda)$ 。

EM算法的E步：求Q函数

$Q(\lambda,\overline\lambda)=\sum_I\log P(O,I|\lambda)P(O,I|\overline\lambda)$

其中 $\overline\lambda$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可夫模型参数。 $P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)a_{i_2i_3}...a_{i_{T-1}i_T}b_{i_T}(o_T)$

于是函数 $Q(\lambda,\overline\lambda)$ 可以写成： $Q(\lambda,\overline\lambda)=\sum_I\log\pi_{i_1}P(O,I|\overline\lambda)+\sum_I\left(\sum_{t=1}^{T-1}\log a_{i_ti_{t+1}}\right)P(O,I|\overline\lambda)+\sum_I\left(\sum_{t=1}^T\log b_{i_t}(o_t)\right)P(O,I|\overline\lambda)$

式中求和都是对所有数据的序列总长度 $T$ 进行的。

EM算法的M步：极大化Q函数

对上式的三项分别极大化，得到： $\pi_i=\frac{P(O,i_1=i|\overline\lambda)}{P(O,\lambda)}$

$a_{ij}=\frac{\sum \limits_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline\lambda)}{\sum \limits_{t=1}^{T-1}P(O,i_t=i|\overline\lambda)}$

$b_j(k)=\frac{\sum \limits_{t=1}^TP(O,i_t=j|\overline\lambda)I(o_t=v_k)}{\sum \limits_{t=1}^TP(O,i_t=j\overline|\lambda)}$

2.2.3 Baum-Welch模型参数估计公式

Baum-Welch算法

输入观测数据 $O=(o_1,o_2,...,o_T)$ ；

输出隐马尔可夫模型参数。

（1）初始化。对 $n = 0$ ，选取 $a_{ij}^{(0)}$ ， $b_j(k)^{(0)}$ ， $\pi_i^{(0)}$ ，得到模型 $\lambda^{(0)}=(A^{(0)},B^{(0)},\pi^{(0)})$ ；

（2）递推。对 $n = 1, 2, . . .$ ： $a_{ij}=\frac{\sum \limits_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline\lambda)}{\sum \limits_{t=1}^{T-1}P(O,i_t=i|\overline\lambda)}$

$b_j(k)=\frac{\sum \limits_{t=1}^TP(O,i_t=j|\overline\lambda)I(o_t=v_k)}{\sum \limits_{t=1}^TP(O,i_t=j\overline|\lambda)}$

$\pi_i=\frac{P(O,i_1=i|\overline\lambda)}{P(O,\lambda)}$

右端各值按观测 $O=(o_1,o_2,...,o_T)$ 和模型 $\lambda^{(n)}=(A^{(n)},B^{(n)},\pi^{(n)})$ 计算。

（3）终止。得到模型参数 $\lambda^{(n+1)}=(A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$ 。

2.3 预测算法

2.3.1 近似算法

近似算法的想法是，在每个时刻 $t$ 选择在该时刻最有可能出现的状态 $i_t^*$ ，从而得到一个状态序列 $I^*=(i_1^*,i_2^*,...,i_T^*)$ ，将它作为预测的结果。给定隐马尔可夫模型 $\lambda$ 和观测序列 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率 $\gamma_t(i)$ 是： $\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{\sum \limits_{j=1}^N\alpha_t(i)\beta_t(i)}$

在每一时刻 $t$ 最后可能的状态 $i_t^*$ 是： $i_t^*=\arg\max_{1\leq i\leq N}[\gamma_t(i)],\ \ \ t=1,2,...,T$

从而得到 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最优可能的状态序列，因为预测的状态序列可能有实际不发生的部分。

2.3.2 维特比算法

维特比算法实际使用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径。这时的路径对应着一个状态。首先导入两个变量 $\delta$ 和 $\Psi$ 。定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_T)$ 中概率最大值为： $\delta_t(i)=\max_{i_1,i_2,...,i_{t-1}}P(i_t=i,i_{t-1},...,i_1,o_t,...,o_1|\lambda),\ \ \ i=1,2,...,N$

由定义得到变量 $\delta$ 的递推公式： $\begin{aligned} \delta_{t+1}(i)&=\max_{i_1,i_2,...,i_{t-1}}P(i_t=i,i_{t-1},...,i_1,o_t,...,o_1|\lambda)\\&=\max_{1\leq j\leq N}[\delta_t(j)a_{ji}]b_i(o_{t+1}),\ \ \ i=1,2,...,N;\ \ \ t=1,2,...,T-1 \end{aligned}$

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_{t-1},i)$ 中概率最大的路径的第 $t - 1$ 个结点为： $\Psi(i)=\arg\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}],\ \ \ i=1,2,...,N$

维特比算法

输入模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,...,o_T)$ ；

输出最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。

（1）初始化： $\delta_1(i)=\pi_ib_i(o_1),\ \ \ i=1,2,...,N$

$\Psi_1(i)=0,\ \ \ i=1,2,...,N$

（2）递推。对 $t = 2, 3, . . ., T$ ： $\delta_t(i)=\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_{t+1}),\ \ \ i=1,2,...,N$

$\Psi(i)=\arg\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}],\ \ \ i=1,2,...,N$

（3）终止： $P^*=\max_{1\leq i\leq N}\delta_T(i)$

$i^*_T=\arg\max_{1\leq i\leq N}[\delta_T(i)]$

（3）最优路径回溯。对 $t = T - 1, T - 2, . . ., 1$ ： $i_t^*=\Psi_{t+1}(i_{t+1}^*)$

求得最优路径 $I^*=(i_1^*,i_2^*,...,i_T^*)$ 。

解例题

（1）初始化。在 $t = 1$ 时，对每个状态 $i$ ， $i = 1, 2, 3$ ，求状态为 $i$ 观测 $o_1$ 为红的概率，记此概率为 $\delta_1(i)$ ，则： $\delta_1(i)=\pi_ib_i(o_1)=\pi_ib_i(红),\ \ \ i=1,2,3$

带入实际数据： $\delta_1(i)=0.10,\ \ \ \delta_2(i)=0.16,\ \ \ \delta_3(i)=0.28$

记 $\Psi_1(i)=0$ ， $i = 1, 2, 3$ 。

（2）在 $t = 2$ 时，对每个状态 $i$ ， $i = 1, 2, 3$ ，求在 $t = 1$ 时状态为 $j$ 观测为红并在 $t = 2$ 时状态为 $i$ 观测 $o_2$ 为白的路径的最大概率，记次最大概率为 $\delta_2(i)$ ，则： $\delta_2(i)=\max_{1\leq j\leq 3}[\delta_1(j)a_{ji}]b_i(o_2)$

同时，对每个状态 $i$ ， $i = 1, 2, 3$ ，记录概率最大路径的前一个状态 $j$ ： $\Psi_2(i)=\arg\max_{1\leq j\leq3}[\delta_1(j)a_{ji}],\ \ \ i=1,2,3$

计算： $\begin{aligned} \delta_2(1)&=\max_{1\leq j\leq3}[\delta_1(j)a_{j1}]b_1(o_2)\\&=\max_j\{0.10×0.5,0.16×0.3,0.28×0.2\}×0.5\\&=0.028 \end{aligned}$

$\begin{aligned} \Psi_2(1)&=\arg\max_{1\leq j\leq3}[\delta_1(j)a_{j1}]\\&=\arg\max_j\{0.10×0.5,0.16×0.3,0.28×0.2\}\\&=3 \end{aligned}$

$\begin{aligned} \delta_2(2)&=\max_{1\leq j\leq3}[\delta_1(j)a_{j2}]b_2(o_2)\\&=\max_j\{0.10×0.2,0.16×0.5,0.28×0.3\}×0.6\\&=0.0504 \end{aligned}$

$\begin{aligned} \Psi_2(2)&=\arg\max_{1\leq j\leq3}[\delta_1(j)a_{j2}]\\&=\arg\max_j\{0.10×0.2,0.16×0.5,0.28×0.3\}\\&=3 \end{aligned}$

$\begin{aligned} \delta_2(3)&=\max_{1\leq j\leq3}[\delta_1(j)a_{j3}]b_3(o_2)\\&=\max_j\{0.10×0.3,0.16×0.2,0.28×0.5\}×0.3\\&=0.042 \end{aligned}$

$\begin{aligned} \Psi_2(3)&=\arg\max_{1\leq j\leq3}[\delta_1(j)a_{j3}]\\&=\arg\max_j\{0.10×0.3,0.16×0.2,0.28×0.5\}\\&=3 \end{aligned}$

同样，在 $t = 3$ 时， $\delta_3(1)=0.00756,\ \ \ \Psi_3(1)=2$

$\delta_3(2)=0.01008,\ \ \ \Psi_3(2)=2$

$\delta_3(3)=0.01470,\ \ \ \Psi_3(3)=3$

（3）以 $P^*$ 表示最优路径的概率，则： $P^*=\max_{1\leq i\leq3}\delta_3(i)=0.0147$

最优路径的终点是 $i_3^*$ ： $i_3^*\arg\max_i[\delta_3(i)]=3$

（4）由最优路径的终点 $i_3^*$ ，逆向找到 $i_1^*$ 和 $i_2^*$ ： $在t=2时,\ \ \ \ i_2^*=\Psi_3(i_3^*)=\Psi_3(3)=3$

$在t=1时,\ \ \ \ i_1^*=\Psi_2(i_2^*)=\Psi_2(3)=3$

于是求得最优路径，即最优状态序列 $I^*=(i_1^*,i_2^*,i_3^*)=(3,3,3)$ 。

3. 隐马尔可夫模型总结

隐马尔可夫模型是关于时序的概率模型，描述一个隐藏的马尔可夫链随机生成不可观测的状态的序列，再由各个状态随机生成一个观测从而产生观测序列的过程。隐马尔可夫模型由初始状态向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。因此，隐马尔可夫模型可以写成 $\lambda=(A,B,\pi)$ 。