统计学习方法读书笔记第十章：隐马尔科夫模型

最新推荐文章于 2023-03-09 22:01:42 发布

LYPG

最新推荐文章于 2023-03-09 22:01:42 发布

阅读量813

点赞数

文章标签：统计学习方法读书笔记第十章：隐马尔科夫模型

本文链接：https://blog.csdn.net/weixin_40692963/article/details/87858159

版权

统计学习方法读书笔记第十章：隐马尔科夫模型

统计学习方法读书笔记第十章：隐马尔科夫模型

统计学习方法读书笔记第十章：隐马尔科夫模型

隐马尔科夫模型是可用于标注问题的统计学模型，描述由隐藏的马尔科夫链随机生成观测序列的过程，属于生成模型。

隐马尔科夫模型的基本概念

隐马尔科夫模型的定义
隐马尔科夫模型 隐马尔科夫模型是关于时序的概率模型，描述有一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可以看作是一个时刻。
隐马尔科夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。应马尔科夫模型的形式定义如下：
设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合。
$Q=\{q_1,q_2,\cdots,q_N\}, V=\{v_1,v_2,\cdots,v_M\}$
其中， $N$ 是可能的状态数， $M$ 是可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列。
$I=(i_1,i_2,\cdots,i_T), O=(o_1,o_2,\cdots,o_T)$
$A$ 是状态转移概率矩阵：
$A=[a_{ij}]_{N\times N} \tag{1}$
其中，
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i), i=1,2,\cdots,N;j=1,2,\cdots,N \tag{2}$
是在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率。
$B$ 是观测概率矩阵：
$B=[b_j(k)]_{N\times M} \tag{3}$
其中，
$b_j(k)=P(o_t=v_k|i_t=q_j), k=1,2,\cdots,M; j=1,2,\cdots,N \tag{4}$
是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$\pi$ 是初始状态概率向量：
$\pi=(\pi_i) \tag{5}$
其中，
$\pi_i=P(i_1=q_i), i=1,2,\cdots,N \tag{6}$
是时刻 $t = 1$ 处于状态 $q_i$ 的概率。
隐马尔科夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔科夫模型 $\lambda$ 可以用三原符号表示，即
$\lambda=(A,B,\pi) \tag{7}$
$A$ ， $B$ ， $\pi$ 称为隐马尔科夫模型的三要素。
状态转移概率矩阵 $A$ 与初始状态概率向量 $\pi$ 确定了隐藏的马尔科夫链，生成不可观测的状态序列。观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。
从定义可知，隐马尔科夫模型作了两个基本假设：
(1) 齐次马尔科夫性假设，即假设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。
$P(i_t|i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(i_t|i_{t-1}), t=1,2,\cdots,T \tag{8}$
(2) 观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测及状态无关。
$P(o_t|i_T,o_T,i_{T-1},o_{T-1},\cdots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(o_t|i_t) \tag{9}$
隐马尔科夫模型可以用于标注，这时状态对应着标记。标注问题是给定观测的序列预测其对应的标记序列。可以假设标注问题的数据是由隐马尔科夫模型生成的。这样我们可以利用隐马尔科夫模型的学习与预测算法进行标注。
观测序列的生成过程
根据马尔科夫模型的定义，可以将一个长度为 $T$ 的观测序列 $O=(o_1,o_2,\cdots,o_T)$ 的生成过程描述如下：
算法１(观测序列的生成)
输入：隐马尔科夫模型 $\lambda=(A,B,\pi)$ ，观测序列长度 $T$ ；
输出：观测序列 $O=(o_1,o_2,\cdots,o_T)$ 。
(1) 按照初始状态分布 $\pi$ 产生状态 $i_1$ ；
(2) 令 $t = 1$ ；
(3) 按照状态 $i_t$ 的观测概率分布 $b_{i_t}(k)$ 生成 $o_t$ ；
(4) 按照状态 $i_t$ 的状态转移概率分布 ${a_{i_ti_{t+1}}\}$ 产生状态 $i_{t+1},i_{t+1}=1,2,\cdots,N$ ；
(5) 令 $t = t + 1$ ；如果 $t < T$ ，转步(3)；否则，终止。
隐马尔科夫模型的３个基本问题
隐马尔科夫模型有３个基本为题：
(1) 概率模型问题。给定模型 $\lambda=(a,N,\pi)$ 和观测序列 $O=(o_1,o_,2\cdots,o_T)$ ，计算在模型 $KaTeX parse error: Expected 'EOF', got '\ambda' at position 1: \̲a̲m̲b̲d̲a̲$ 下观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。
(2) 学习问题。已知观测序列 $O=(o_1,o_,2\cdots,o_T)$ ，估计模型参数 $\lambda=(A,B,\pi)$ 的参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。即用极大似然估计的方法估计参数。
(3) 预测问题，也称为解码问题。已知模型 $\lambda=(A,B,\pi)$ 和序列 $O=(o_1,o_,2\cdots,o_T)$ ，求给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,\cdots,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。

概率计算算法

本节介绍计算观测序列概率 $P(O|\lambda)$ 的前向与后向算法。先介绍概念上可行但计算上不可行的直接计算法。

直接计算法
给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,\cdots,o_T)$ ，计算观测序列 $O$ 出现的概率 $P(O|\lambda)$ 。最直接的方法是按概率公式直接计算。通过列举所有可能的长度为 $T$ 的状态序列 $I=(i_1,i_2,\cdots,i_T)$ ，求各个状态序列与观测序列 $O=(o_1,o_2,\cdots,o_T)$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O|\lambda)$ 。
状态序列 $I=(i_1,i_2,\cdots,i_T)$ 的概率是
$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}\cdots a_{i_{T-1}i_T} \tag{10}$
对固定的状态序列 $I=(i_1,i_2,\cdots,i_T)$ ，观测序列 $O=(o_1,o_2,\cdots,o_T)$ 的概率是 $P(O|I,\lambda)$
$P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T) \tag{11}$
$O$ 和 $I$ 同时出现的联合概率为
$\begin{aligned} P(O,I|\lambda)&=P(O|I,\lambda)P(I|\lambda) \\ &=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T) \tag{12} \end{aligned}$
然后，对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O|\lambda)$ ，即
$\begin{aligned} P(O|\lambda)&=\sum_{I}P(O|I,\lambda)P(I|\lambda) \\ &=\sum_{i_1,i_2,\cdots,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T) \tag{13} \end{aligned}$
但是，利用上式计算量很大，是 $O(TN^T)$ 阶的，这种算法不可行。
下面介绍计算观测序列概率 $P(O|\lambda)$ 的有效算法：前向-后向算法。
前向算法
前向概率 给定隐马尔科夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1,o_2,\cdots,o_t$ 且状态为 $q_i$ 的概率为前向概率，记作
$\alpha_t(i)=P(o_1,o_2,\cdots,o_t,i_t=q_i|\lambda) \tag{14}$
可以递推地求得前向概率 $\alpha_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
观测序列概率的前向算法
输入：隐马尔科夫模型 $\lambda$ ，观测序列 $O$ ；
输出：观测序列概率 $P(O|\lambda)$ 。
(1) 初值
$\alpha_1(i)=\pi_ib_i(o_1),i=1,2,\cdots,N \tag{15}$
(2) 递推　对 $t=1,2,\cdots,T-1$ ，
$\alpha_{t+1}(i)=\bigg[\sum_{j=1}^{N}\alpha_t(j)a_{ji}\bigg]b_i(o_{t+1}), i=1,2,\cdots,N \tag{116}$
(3) 终止
$P(O|\lambda)=\sum_{i=1}^N\alpha_T(i) \tag{17}$
前向算法，步骤(1)初始化前向概率，是初始时刻的状态 $i_1=q_i$ 和观测 $o_1$ 的联合概率。步骤(2)是前向概率的递推公式，计算到时刻 $t + 1$ 部分观测序列为 $o_1,o_2,\cdots,o_t,o_{t+1}$ 且在时刻 $t + 1$ 处于状态 $q_i$ 的前向概率，如下图所示。在(2)式的方括弧里，既然 $\alpha_t(j)$ 是到时刻 $t$ 观测到 $o_1,o_2,\cdots,o_t$ 并在时刻 $t$ 处于状态 $q_j$ 的前向概率，那么乘积 $\alpha_t(j)a_{ji}$ 就是到时刻 $t$ 观测到 $o_1,o_2,\cdots,o_t$ 并在时刻 $t$ 处于状态 $q_j$ 而在时刻 $t + 1$ 到达状态 $q_i$ 的联合概率。对这个乘积在时刻 $t$ 的所有可能的 $N$ 个状态 $q_j$ 求和，其结果就是到时刻 $t$ 观测为 $o_1,o_2,\cdots,o_t$ 并在时刻 $t + 1$ 处于状态 $q_i$ 的联合概率。方括弧里的值与观测概率 $b_i(o_{t+1})$ 的乘积恰好是时刻 $t + 1$ 观测到 $o_1,o_2,\cdots,o_t,o_{t+1}$ 并在时刻 $t + 1$ 处于状态 $q_i$ 的前向概率 $\alpha_{t+1}(i)$ 。步骤(3)给出 $P(O|\lambda)$ 的计算公式。因为
$\alpha_T(i)=P(o_1,o_2,\cdots,o_T,i_T=q_i|\lambda)$
所以
$P(O|\lambda)=\sum_{i=1}^{N}\alpha_T(i)$

如下图所示，前向算法实际是基于“状态序列的路径结构”递推计算 $P(O|\lambda)$ 的算法。前向算法高效的关键是其局部计算前向概率，然后利用路径结构将前向概率“递推”到全局，得到 $P(O|\lambda)$ 。具体地，在时刻 $t = 1$ ，计算 $\alpha_1(i)$ 的 $N$ 个值 $(i=1,2,\cdots,N)$ ；在各个时刻 $t=1,2,\cdots,T-1$ ，计算 $\alpha_{t+1}(i)$ 的 $N$ 个值 $(i=1,2,\cdots,N)$ ，并且每个 $\alpha_{t+1}(i)$ 的计算利用前一时刻 $N$ 个 $\alpha_t(j)$ 。减少计算量的原因在于每一次计算直接引用前一个时刻的计算结果，避免重复计算。这样，利用前向概率计算 $P(O|\lambda)$ 的计算量是 $O(N^2T)$ 阶的，而不是直接计算的 $O(TN^T)$ 阶。
后向算法
后向概率 给定隐马尔科夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1},o_{t+2},\cdots,o_T$ 的概率为后向概率，记作
$\beta_t(i)=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda) \tag{18}$
可以利用递推的方法求得后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
观测序列概率的后向算法
输入：隐马尔科夫模型 $\lambda$ ，观测序列 $O$ ；
输出：观测序列概率 $P(O|\lambda)$ 。
(1) $\beta_T(i)=1,i=1,2,\cdots,N \tag{19}$
(2) 对 $t=T-1,T-2,\cdots,1$
$\beta_t(i)=\sum_{j=1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j), i=1,2,\cdots,N \tag{20}$
(3) $P(O|\lambda)=\sum_{i=1}^N\pi_{i}b_i(o_1)\beta_1(i) \tag{21}$
步骤(1)初始化后向概率，对最终时刻的所有状态 $q_i$ 规定 $\beta_T(i)=1$ 。步骤 $(2)$ 是后向概率的递推公式。如下图所示，为了计算在时刻 $t$ 状态为 $q_i$ 条件下时刻 $t + 1$ 之后的观测序列 $o_{t+1},o_{t+2},\cdots,o_T$ 的后向概率 $\beta_t(i)$ ，只需要考虑在时刻 $t + 1$ 所有可能的 $N$ 个状态 $q_j$ 的转移概率（即 $a_{ij}$ 项），以及在此状态下的观测 $o_{t+1}$ 的观测概率（即 $b_j(o_{t+1})$ 项），然后考虑状态 $q_j$ 之后的观测序列的后向概率（即 $\beta_{t+1}(j)$ 项）。步骤(3)求 $P(O|\lambda)$ 的思路与步骤(2)一致，只是初始概率 $\pi_i$ 代替转移概率。
利用前向概率和后向概率的定义可以将观测序列概率 $P(O|\lambda)$ 统一写成
$P(O|\lambda))=\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j),t=1,2,\cdots,T-1 \tag{22}$
此式当 $t = 1$ 和 $t = T - 1$ 时分别为前向概率计算公式和后向概率计算公式。
一些概率与期望值的计算
利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的计算公式。

给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率。记
$\gamma_t(i)=P(i_t=q_i|O,\lambda) \tag{23}$
可以通过前向后向概率计算。事实上，
$\gamma_t(i)=P(i_t=q_i|O,\lambda)=\frac{P(i_t=q_i,O|\lambda)}{P(O|\lambda)}$
由前向概率 $\alpha_t(i)$ 和后向概率 $\beta_t(i)$ 定义可知：
$\alpha_t(i)\beta_t(i)=P(i_t=q_i,O|\lambda)$
于是得到：
$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{P(O|\lambda)}=\frac{\alpha_t(i)\beta_t(i)} \tag{24}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$
给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率。记
$\xi_t(i,j)=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)} \tag{25}$
可以通过前向后向概率计算：
$\xi_t(i,j)=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}=\frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{\sum_{i=1}^N\sum_{j=1}^NP(i_t=q_i,i_{t+1}=q_j,O|\lambda)}$
而
$P(i_t=q_i,i_{t+1}=q_j,O|\lambda)=\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$
所以
$\xi_t(i,j)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)} \tag{26}$
将 $\gamma_t(i)$ 和 $\xi_t(i,j)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值：
(1) 在观测 $O$ 下状态 $i$ 出现的期望值
$\sum_{t=1}^T\gamma_t(i) \tag{27}$
(2) 在观测 $O$ 下由状态 $i$ 转移的期望值
$\sum_{t=1}^{T-1}\gamma_t(i) \tag{28}$
(3) 在观测 $O$ 下由状态 $i$ 转移到状态 $j$ 的期望值
$\sum_{t=1}^{T-1}\xi_t(i,j) \tag{29}$

学习算法

隐马尔科夫模型的学习，根据训练数据是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习与非监督学习实现。本节首先介绍监督学习算法，而后介绍非监督学习算法－－Baum-Welch算法（也就是EM算法）。

监督学习方法
假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 $\{(O_1,I_1),(O_2,I_2),\cdots,(O_S,I_S)\}$ ，那么可以用极大似然估计法来估计隐马尔科夫模型的参数。具体方法如下：

转移概率 $a_{ij}$ 的估计
设样本中时刻 $t$ 处于状态 $i$ 时刻 $t + 1$ 转移到状态 $j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是
$\hat{a_{ij}}=\frac{A_{ij}}{\sum_{j=1}^NA_{ij}}, i=1,2,\cdots,N; j=1,2,\cdots,N \tag{30}$
观测概率 $b_j(k)$ 的估计
设样本中状态为 $j$ 并观测为 $k$ 的频数是 $B_{jk}$ ，那么状态为 $j$ 观测为 $k$ 的概率 $b_j(k)$ 的估计是
$\hat{b_j(k)}=\frac{B_{ij}}{\sum_{k=1}^MB_{ij}}, j=1,2,\cdots,N; k=1,2,\cdots,M \tag{31}$
初始状态概率 $\pi_i$ 的估计 $\hat{\pi_i}$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率。
由于监督学习需要使用训练数据，而人工标准训练数据往往代价很高，有时就会利用非监督学习的方法。

Baum-Welch算法
假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\{O_1,O_2,\cdots,O_S\}$ 而没有对应的状态序列，目标是学习隐马尔科夫模型 $\lambda=(A,B,\pi)$ 的参数。我们将观测序列数据看作观测数据 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔科夫模型事实上是一个含有隐变量的概率模型
$P(P|\lambda)=\sum_IP(O|I,\lambda)P(I|\lambda) \tag{32}$
它的参数学习可以由EM算法实现。

确定完全数据的对数似然函数
所有观测数据写成 $O=(o_1,o_2,\cdots,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,\cdots,i_T)$ ，完全数据是 $(O,I)=(o_1,o_2,\cdots,o_T,i_1,i_2,\cdots,i_T)$ 。完全数据的对数似然函数是 $logP(O,I|\lambda)$ 。
EM算法的E步：求Q函数 $Q(\lambda,\bar\lambda)$
$Q(\lambda,\bar\lambda)=\sum_IlogP(O,I|\lambda)P(O,I|\bar\lambda) \tag{33}$
其中， $\bar\lambda$ 是隐马尔科夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔科夫模型参数。
$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T)$
于是Q函数可以写成：
$\begin{aligned} Q(\lambda,\bar\lambda)&=\sum_Ilog\pi_{i_1}P(O,I|\bar\lambda) \\ &+\sum_I\bigg(\sum_{t=1}^{T-1}loga_{i_ti_{t+1}}\bigg)P(O,I|\bar\lambda)+\sum_I\bigg(\sum_{t=1}^Tlogb_{i_t}(o_t)\bigg)P(O,I|\bar\lambda) \tag{34} \end{aligned}$
式中求和都是对所有训练数据的序列长度 $T$ 进行的。
EM算法的M步：极大化Q函数 $Q(\lambda,\bar\lambda)$ 求模型参数 $A$ ， $B$ ， $\pi$
由于要极大化的参数在式(34)中单独地出现在３个项中，所以只需对各项分别极大化。
(1) 式(34)的第１项可以写成：
$\sum_Ilog\pi_{i_0}P(O,I|\bar\lambda)=\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar\lambda)$
注意到 $\pi_i$ 满足约束条件 $\sum_{i=1}^N\pi_i=1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
$\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar\lambda)+\gamma\bigg(\sum_{i=1}^N\pi_i-1\bigg)$
对其求偏导数并令结果为0
$\frac{\partial}{\partial\pi_i}\bigg[\sum_{i=1}^Nlog\pi_iP(O,i_1=i|\bar\lambda)+\gamma\bigg(\sum_{i=1}^N\pi_i-1\bigg)\bigg] \tag{35}$
得
$P(O,i_1=i|\bar\lambda)+\gamma\pi_i=0$
对 $i$ 求和得到 $\gamma$
$\gamma=-P(O|\bar\lambda)$
带入式(35)即得
$\pi_i=\frac{P(O,i_1=i|\bar\lambda)}{P(O|\bar\lambda)} \tag{36}$
(2) 式(34)的第2项可以写成
$\sum_I\bigg(\sum_{t=1}^{T-1}loga_{i_ti_{t+1}}\bigg)P(O,I|\bar\lambda)=\sum_{i=1}^N\sum_{j=1}^N \sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\bar\lambda)$
类似第1项，应用具有约束条件 $\sum_{j=1}^Na_{ij}=1$ 的拉格朗日乘子法可以求出
$a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\bar\lambda)}{\sum_{t=1}^{T-1}P(O,i_t=i|\bar\lambda)} \tag{37}$
(3) 式(34)的第3项为
$\sum_I\bigg(\sum_{t=1}^Tlogb_{i_t}(o_t)\bigg)P(O,I|\bar\lambda)=\sum_{j=1}^N\sum_{t=1}^Tlogb_j(o_t)P(O,i_t=j|\bar\lambda)$
同样用拉格朗日乘子法，约束条件是 $\sum_{k=1}^Mb_j(k)=1$ 。注意，只有在 $o_t=v_k$ 时 $b_j(o_t)$ 对 $b_j(k)$ 的偏导数才不为0，以 $I(o_t=v_k)$ 表示。求得
$b_j(k)=\frac{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)I(o_t=v_k)}{\sum_{t=1}^TP(O,i_t=j|\bar\lambda)} \tag{38}$

Baum-Welch模型参数估计公式
将式(36)~式(38)中的各概率分别用 $\gamma_t(i)$ ， $\xi_t(i,j)$ 表示，则可将相应的公式写成：
$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)} \tag{39}$
$b_j(k)=\frac{\sum_{t=1,o_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)} \tag{40}$
$\pi_i=\gamma_1(i) \tag{41}$
其中， $\gamma_t(i)$ ， $\xi_t(i,j)$ 分别由式(24)及式(26)给出。式(39)~式(41)就是Baum-Welch算法，它是EM算法在隐马尔科夫模型学习中的具体实现，由Baum和Welch提出。
算法4（Baum-Welch算法）
输入：观测数据 $O=(o_1,o_2,\cdots,o_T)$ ；
输出：隐马尔科夫模型参数。
(1) 初始化
对 $n = 0$ ，选取 $a_{ij}^{(0)}$ ， $b_j(k)^{(0)}$ ， $\pi_i^{(0)}$ ，得到模型 $\lambda^{(0)}=(A^{(0)},B^{(0)},\pi^{(0)})$ 。
(2) 递推。对 $n=1,2,\cdots$ ，
$a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)} \\ b_j(k)=\frac{\sum_{t=1,o_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)} \\ \pi_i=\gamma_1(i)$
右端各值按观测 $O=(o_1,o_2,\cdots,o_T)$ 和模型 $\lambda^{(n)}=(A^{(n)},B^{(n)},\pi^{(n)})$ 计算。式中 $\gamma_t(i)$ ， $\xi_t(i,j)$ 由式(24)和式(26)给出。
(3) 终止。得到模型参数 $\lambda^{(n+1)}=(A^{(n+1)},B^{(n+1)},\pi^{(n+1)})$ 。

预测算法

下面介绍隐马尔科夫模型预测的两种算法：近似算法与维特比算法。

近似算法
近似算法的想法是，在每个时刻 $t$ 选择在该时刻最有可能出现的状态 $i_t^*$ ，从而得到一个状态序列 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ ，将它作为预测的结果。
给定隐马尔科夫模型 $\lambda$ 和观测序列 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率 $\gamma_t(i)$ 是
$\gamma_t(i)=\frac{\alpha_t(i)\beta_t(i)}{P(O|\lambda)}=\frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)} \tag{42}$
在每一时刻 $t$ 最有可能的状态 $i_t^*$ 是
$i_t^*=arg\max_{1\leq i\leq N}[\gamma_t(i)], t=1,2,\cdots,T \tag{43}$
从而得到状态序列 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ 。
近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分。事实上，上述方法得到的状态序列中有可能存在转移概率为0的相邻专题，即对某些 $i$ ， $j$ ， $a_{ij}=0$ 时。尽管如此，近似算法仍然是有用的。
维特比算法
维特比算法实际是动态规划解隐马尔科夫模型预测问题，即用动态规划求概率最大路径（最优路径）。这时一条路径对应着一个状态序列。
根据动态规划原理，最优路径具有这样的特性：如果最优路径在时刻 $t$ 通过结点 $i_t^*$ ，那么这一路径从结点 $i_t^*$ 到终点 $i_T^*$ 的部分路径，对于从 $i_t^*$ 到 $i_T^*$ 的所有可能的部分路径来说，必须是最优的。因为加入不是这样，那么从 $i_t^*$ 到 $i_T^*$ 就有另一条更好的部分路径存在，如果把它和从 $i_1^*$ 到 $i_t^*$ 的部分路径连接起来，就会形成一条比原来的路径更优的路径，这是矛盾的，依据这一原理，我们只需从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i$ 的各条部分路径的最大概率，直到得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率。时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ，最优路径的终结点 $i_T^*$ 也同时得到。之后，为了找出最优路径的各个结点，从终结点 $i_T^*$ 开始，由后向前逐步求得结点 $i_{T-1}^*,\cdots,i_1^*$ ，得到最优路径 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ 。这就是维特比算法。
首先导入两个变量 $\delta$ 和 $\psi$ 。定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $(i_1,i_2,\cdots,i_t)$ 中概率最大值为
$\delta_t(i)=\max_{i_1,i_2,\cdots,i_{t-1}}P(i_t=i,i_{t-1},\cdots,i_1,o_t,\cdots,o_1|\lambda), i=1,2,\cdots,N \tag{44}$
由定义可得变量 $\delta$ 的递推公式：
$\begin{aligned} \delta_{t+1}(i)&=\max_{i_1,i_2,\cdots,i_t}P(i_{t+1}=i,i_t,\cdots,i_1,o_{t+1},\cdots,o_1|\lambda) \\ &=\max_{1\leq j\leq N}[\delta_t(j)a_{ji}]b_i(o_{t+1}), i=1,2,\cdots,N; t=1,2,\cdots,T-1 \tag{45} \end{aligned}$
定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $(i_1,i_2,\cdots,i_{t-1},i)$ 中概率最大的路径的第 $t - 1$ 个结点为
$\psi_t(i)=arg\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}], i=1,2,\cdots,N \tag{46}$
下面介绍维特比算法。
算法5（维特比算法）
输入：模型 $\lambda=(A,B,\pi)$ 和观测 $O=(o_1,o_2,\cdots,o_T)$ ；
输出：最优路径 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ 。
(1) 初始化
$\delta_1(i)=\pi_ib_i(o_1), i=1,2,\cdots,N \\ \psi_1(i)=0, i=1,2,\cdots,N$
(2) 递推。对 $t=2,3,\cdots,T$
$\delta_t(i)=\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}]b_i(o_t), i=1,2,\cdots,N \\ \psi_t(i)=arg\max_{1\leq j\leq N}[\delta_{t-1}(j)a_{ji}], i=1,2,\cdots,N$
(3) 终止
$P^*=\max_{1\leq i\leq N}\delta_T(i) \\ i_T^*=arg\max_{1\leq i\leq N}[\delta_T(i)]$
(4) 最优路径回溯。对 $t=T-1,T-2,\cdots,1$
$i_t^*=\psi_{t+1}(i_{t+1}^*)$
求得最优路径 $I^*=(i_1^*,i_2^*,\cdots,i_T^*)$ 。

LYPG

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法读书笔记第十章：隐马尔科夫模型

统计学习方法读书笔记第十章：隐马尔科夫模型统计学习方法读书笔记第十章：隐马尔科夫模型隐马尔科夫模型的基本概念概率计算算法学习算法预测算法统计学习方法读书笔记第十章：隐马尔科夫模型隐马尔科夫模型是可用于标注问题的统计学模型，描述由隐藏的马尔科夫链随机生成观测序列的过程，属于生成模型。隐马尔科夫模型的基本概念隐马尔科夫模型的定义隐马尔科夫模型隐马尔科夫模型是关于时序的概率模型，描述有一...
复制链接

扫一扫