机器学习-白板推导系列(十四)-隐马尔科夫(HMM，Hidden Markov Model)

最新推荐文章于 2023-07-29 14:09:01 发布

Paul-Huang

最新推荐文章于 2023-07-29 14:09:01 发布

阅读量385

点赞数 2

分类专栏：机器学习-白板推导文章标签：机器学习算法统计学

本文链接：https://blog.csdn.net/huang1024rui/article/details/114458133

版权

机器学习-白板推导专栏收录该内容

23 篇文章 43 订阅

订阅专栏

14. 隐马尔科夫(HMM，Hidden Markov Model)

14.1 背景

14.1.1 概念回顾

机器学习派别
机器学习大致可分两派别：频率派和贝叶斯派的方法。
- 频率派
  频率派的思想就衍生出了统计学习方法，统计学习方法的重点在于优化，找loss function。频率派的方法可以分成三步：
  - 定义Model，比如 $f(w) = w^Tx+b$ ；
  - 寻找策略strategy，也就是定义Loss function；
  - 求解，寻找优化的方法，比如梯度下降(GD)，随机梯度下降(SGD)，牛顿法，拟牛顿法等等。
- 贝叶斯派
  - 贝叶斯派的思想衍生出概率图模型。概率图模型重点研究的是Inferenc问题， $\color{red}求一个后验概率分布P(Z|X)$ ，其中 $X$ 为观测变量， $Z$ 为隐变量。
  - 实际上就是一个积分问题，因为贝叶斯框架中的归一化因子需要对整个状态空间进行积分，非常的复杂。代表性的有前面讲到的MCMC，MCMC的提出才是把贝叶斯理论代入到实际的运用中。
概率图模型回顾
1. 分类
  - 概率图模型，如果不考虑时序的关系，大致的分为：有向图的Bayesian Network和无向图的Markov Random Field (Markov Network)。
  - 根据分布获得的样本之间都是iid (独立同分布)的。比如Gaussian Mixture Model (GMM)，从 $P(X|\theta)$ 的分布中采出N个样本 $\{ x_1,x_2,\cdots,x_n \}$ 。N个样本之间都是独立同分布的。也就是对于隐变量 $Z$ ，观测变量 $X$ 之间，我们可以假设 $\mathcal{N}(\mu,\Sigma)$ ，这样就可以引入我们的先验信息，从而简化 $X$ 的复杂分布。
2. 动态模型
  对于采出 $N$ 个样本 $\{ x_1,x_2,\cdots,x_n \}$ ，如果引入了时间的信息，也就是 $x_i$ 之间不再iid，我们称之为Dynamic Model。Dynamic Model拓扑结构图如下所示：

$\left \{ \begin{matrix} 离散\rightarrow\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \;\;\;HMM\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 连续\rightarrow \left\{\begin{matrix} 线性\;\;\;\rightarrow Kalman\; Filter\\ 非线性\rightarrow Particle\; Filter \end{matrix}\right. \end{matrix}\right.$

14.1.2 HMM算法简介

相关定义
Hidden Markov Model的拓扑结构图如下所示：
1. 拓扑结构图的第一行为 $\color{red}状态变量i$ ： $\color{red}I=\{i_1,i_2,\cdots,i_t,\cdots\}$ ，每个状态包含 $\color{red}\mathcal{Q} = \{q_1,q_2,\cdots,q_N\}$ 。其中 $\mathcal{Q}$ 是状态变量 $i$ 的 $\color{blue}值域$ ，每个状态变量 $i$ 可能有 $N$ 个状态。
2. 拓扑结构图的第二行为 $\color{red}观测变量o$ ： $\color{red}O=\{o_1,o_2,\cdots,o_t,\cdots\}$ ，每个状态包含 $\color{red}\mathcal{V} = \{v_1,v_2,\cdots,v_M\}$ 。其中 $\mathcal{V}$ 是观察变量 $o$ 的 $\color{blue}值域$ ，每个观测变量 $o_i$ 可能有 $M$ 个状态。
3. HMM可以看做一个三元组 $\color{red}\lambda = (\pi, \mathcal{A}, \mathcal{B})$ 。其中：
  - $\color{red}\pi$ ：初始概率分布。
  - $\color{red}\mathcal{A}$ ：状态转移矩阵。
  - $\color{red}\mathcal{B}$ ：发射矩阵。
  1. $\color{red}\mathcal{A} = [a_{ij}]$ 表示 $\color{red}状态转移矩阵$ ， $\color{red}a_{ij} = P(i_{(i+1)}=q_j|i_{(t)}=q_i)$ 。 $\mathcal{A}$ 表示为各个状态转移之间的概率。
  2. $\color{red}\mathcal{B} = [b_j(k)]$ 表示 $\color{red}发射矩阵$ ， $\color{red}b_j(k) = P(o_t = V_k | i_t = q_j)$ 。 $\mathcal{B}$ 表示为观测变量和隐变量之间的关系。
  3. 而 $\color{red}\pi$ 是什么意思呢？假设当 $t$ 时刻的隐变量 $i_t$ ，可能有 $\color{red}\{ q_1,q_2,\cdots,q_N \}$ 个状态，而这些状态出现的概率分别为 $\color{blue}\{ p_1,p_2,\cdots,p_N \}$ 。这就是一个关于 $i_t$ 隐变量的离散随机分布。
两个假设
这是有关Hidden Markov Model的两个假设：
齐次Markov假设(无后效性) 和 观察独立假设。
1. $\textbf{齐次马尔可夫假设：}$
  未来与过去无关，只依赖与当前的状态。也就是：
  $P(i_{t+1}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(i_{t+1}|i_t)\tag{14.1.1}$
2. $\textbf{观测独立假设：}$
  $P(o_{t}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(o_{t}|i_t)\tag{14.1.2}$
三个问题
1. Evaluation
  要求的问题就是 $\color{red}P(O|\lambda)$ 。也就是前向后向算法，给定一个模型 $\lambda$ ，求出观测变量的概率分布。
2. Learning
  $\lambda$ 如何求的问题。即： $\color{red}\lambda_{MLE} = \arg\max_{\lambda}P(O|\lambda)$ 。求解的方法是EM算法和Baum Welch算法。
3. Decoding
  状态序列为 $I$ ， $\color{red}\hat{I} = \arg\max_{I}P(I|O,\lambda)$ 。也就是在在观测变量 $O$ 和 $\lambda$ 的情况下使隐变量序列 $I$ 出现的概率最大。而这个问题大致被分为预测和滤波。
  - 预测问题为： $\color{red}P(i_{t+1}|o_1,\cdots,o_t)$ ；也就是在已知当前观测变量的情况下预测下一个状态，也就是Viterbi算法。
  - 滤波问题为： $\color{red}P(i_{t}|o_1,\cdots,o_t)$ ；也就是求 $t$ 时刻的隐变量。

Hidden Markov Model，可以被我们总结成一个模型 $\lambda = (\pi,\mathcal{A},\mathcal{B})$ ，两个假设，三个问题。而其中关注最多的是Decoding的问题。

14.2 前向算法

14.2.1 概念回顾

在这里插入图片描述
图1

序列和集合
- $\color{red}I=\{i_1,i_2,\cdots,i_t,\cdots,i_T\}\rightarrow 状态序列$ ， $\color{red}\mathcal{Q} = \{q_1,q_2,\cdots,q_N\}\rightarrow 状态值集合$ 。
- $\color{red}O=\{o_1,o_2,\cdots,o_t,\cdots,o_T\}\rightarrow 观测序列$ ， $\color{red}\mathcal{V} = \{v_1,v_2,\cdots,v_M\}\rightarrow 状态值集合$ 。
$\color{red}\lambda = (\pi, \mathcal{A}, \mathcal{B})$
- $\color{red}\pi$ ：初始概率分布。 $\color{red}\pi=\{P_{(1)}(0),P_{(1)}(1),\cdots,P_{(1)}(M)\}$ 。
- $\color{red}\mathcal{A}$ ：状态转移矩阵， $\color{red}a_{ij} = P(i_{(i+1)}=q_j|i_{(t)}=q_i)$ 。
- $\color{red}\mathcal{B}$ ：发射矩阵， $\color{red}b_j(k) = P(o_t = V_k | i_t = q_j)$ 。
两个假设
- $\textbf{齐次马尔可夫假设：}$ $\color{red}P(i_{t+1}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(i_{t+1}|i_t)$
- $\textbf{观测独立假设：}$ $\color{red}P(o_{t}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(o_{t}|i_t)$
三个问题
- Evaluation：Given $\color{blue}\lambda$ ，求 $\color{red}P(O|\lambda)$ 。(Forward-Backward)
- Learning: $\color{red}\lambda_{MLE} = \arg\max_{\lambda}P(O|\lambda)$ 。(EM算法和Baum Welch算法)
1. Decoding： $\color{red}\hat{I} = \arg\max_{I}P(I|O,\lambda)$ 。(Viterbi)

本节主要是讲Evaluation中的Forward。

14.2.1 Evaluation-Forward

基本方法
- 对于 $P(O|\lambda)$ 利用概率的基础知识进行化简：
  $P(O|\lambda) = \sum_{I}P(O,I|\lambda) = \sum_{I}P(O|I,\lambda)P(I|\lambda)\tag{14.2.1}$
  其中：
  - $\sum_{I}$ 表示所有可能出现的隐状态序列；
  - $\sum_{I}P(O|I,\lambda)$ 表示在某个隐状态下，产生某个观测序列的概率；
  - $P(I|\lambda)$ 表示某个隐状态出现的概率。那么：
    $\begin{array}{ll} P(I|\lambda) & = P(i_1,\cdots,i_T|\lambda) \\ & = P(i_T|i_1,\cdots,i_{T-1},\lambda)\cdot P(i_1,\cdots,i_{T-1}|\lambda) \\\end{array}\tag{14.2.2}$
- 根据Hidden Markov Model两个假设
  - 齐次马尔可夫假设，可得： $P(i_T|i_1,\cdots,i_{T-1},\lambda) = P(i_T|i_{T-1}) = a_{i_{T-1},i_T}$ 。对公式(14.2.2)进行化简可以得到：
    $\begin{array}{ll} P(i_T|i_1,\cdots,i_{T-1},\lambda)\cdot P(i_1,\cdots,i_{T-1}|\lambda) & = P(i_T|i_{T-1}) \cdot P(i_1,\cdots,i_{T-1}|\lambda) \\ & = a_{i_{T-1},i_T}\cdot a_{i_{T-2},i_{T-1}} \cdots a_{i_1,i_2} \cdot \pi(a_{i_1}) \\ &= \pi(a_{i_1}) \prod_{t=2}^T a_{i_{t-1},i_t}\end{array}\tag{14.2.3}$
  - 观察独立假设，可知：
    $\begin{array}{ll} P(O|I,\lambda) &= P(o_1,o_2,\cdots,o_T|I,\lambda) \\ &= \prod_{t=1}^T P(o_t|I,\lambda) \\ &= \prod_{t=1}^T b_{i_t}(o_t)\end{array}\tag{14.2.4}$
1. 结合公式(14.2.4)和(14.2.3)，(14.2.1)可以化简为：
  $\color{blue}\begin{array}{ll} P(O|\lambda) &= \sum_I \pi(a_{i_1}) \prod_{t=2}^T a_{i_{t-1},i_t} \prod_{t=1}^T b_{i_t}(o_t) \\ &= \sum_{i_1}\cdot \sum_{i_2} \cdots \sum_{i_T} \pi(a_{i_1}) \prod_{t=2}^T a_{i_{t-1},i_t} \prod_{t=1}^T b_{i_t}(o_t)\end{array}\tag{14.2.5}$
  公式(14.2.1)共有 $T$ 个状态，每个状态有 $N$ 种可能，所以算法复杂度为 $\color{red}\mathcal{O}(N^T)$ 。计算太困难了！
Forward Algorithm
下图是Hidden Markov Model的拓扑结构图：
1. 思路
  我们记 $\color{red}\alpha_t(i) = P(o_1,\cdots,o_t,i_t = q_i|\lambda)$ ，这个公式表示：在之前所有的观测变量的前提下求出当前时刻的隐变量的概率。那么：
  $\color{red}P(O|\lambda) = \sum_{i=1}^N P(O, i_T = q_i | \lambda) = \sum_{i=1}^N \alpha_T(i)\tag{14.2.6}$
  其中， $\sum_{i=1}^N$ 表示对所有可能出现的隐状态情形求和。通过寻找 $\color{blue}\alpha_t(i)$ 和 $\color{blue}\alpha_t(i+1)$ 之间的递推关系，就可以得到整个观测序列出现的概率。
2. 求解递推关系
  $\alpha_t(i+1)$ 可以写成：
  $\color{red}\alpha_t(i+1) = P(o_1,\cdots,o_t,o_{t+1},i_{t+1}=q_j|\lambda)\tag{14.2.7}$
  因为 $\alpha_t(i)$ 里面有 $i_{t}=q_j$ ，因此想办法把 $i_{t}$ 给塞进 $\alpha_t(i+1)$ 中，即：
  $\begin{array}{ll} \alpha_t(i+1) & = P(o_1,\cdots,o_t,o_{t+1},i_{t+1}=q_j|\lambda) \\ & = \sum_{i=1}^N P(o_1,\cdots,o_t,o_{t+1},i_{t}=q_i,i_{t+1}=q_j|\lambda) \\ & = \sum_{i=1}^N P(o_{t+1}|o_1,\cdots,o_t,i_{t}=q_i,i_{t+1}=q_j,\lambda) \cdot P(o_1,\cdots,o_t,i_{t}=q_i,i_{t+1}=q_j|\lambda)\end{array}\tag{14.2.7}$
  - 根据观测独立性假设，可得 $\color{blue}P(o_{t+1}|o_1,\cdots,o_t,i_{t}=q_i,i_{t+1}=q_j,\lambda) = P(o_{t+1}|i_{t+1}=q_j)$ 。所以：
    $\begin{array}{ll} \alpha_t(i+1) &= \sum_{i=1}^N P(o_{t+1}|o_1,\cdots,o_t,i_{t} = q_i,i_{t+1}=q_j,\lambda) \cdot P(o_1,\cdots,o_t,i_{t} = q_i,i_{t+1}=q_j|\lambda) \\ & = \sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(o_1,\cdots,o_t,i_{t}=q_i,i_{t+1}=q_j|\lambda) \end{array}\tag{14.2.8}$
    看到这个化简后的公式，与 $\alpha_t(i)$ 相比，还多了一项 $i_{t+1}=q_j$ ，下一步的工作就是消去它。所以：
    $P(o_1,\cdots,o_t,i_{t}=q_i,i_{t+1}=q_j|\lambda) = P(i_{t+1}=q_j |o_1,\cdots,o_t,i_{t}=q_i,\lambda)\cdot P(o_1,\cdots,o_t,i_{t}=q_i|\lambda)\tag{14.2.9}$
  - 根据齐次马尔可夫性质，可得 $\color{blue}P(i_{t+1}=q_j |o_1,\cdots,o_t,i_{t}=q_i,\lambda) = P(i_{t+1}=q_j | i_{t}=q_i)$ 。所以：
    $\begin{array}{ll} \alpha_{t+1}(j) & = \sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j | i_{t}=q_i) \cdot P(o_1,\cdots,o_t,i_{t}=q_i|\lambda) \\ & = \sum_{i=1}^N b_j(o_{t+1})\cdot a_{ij} \cdot \alpha_t(i) \end{array}\tag{14.2.10}$
  - 经过上述的推导，我们就成功的得到了 $\alpha_{t+1}(j)$ 和 $\alpha_t(i)$ 之间的关系：
    $\color{red}\alpha_{t+1}(j)= \sum_{i=1}^N b_j(o_{t+1})\cdot a_{ij} \cdot \alpha_t(i)\tag{14.2.11}$
    通过这个递推关系，就可以遍历整个Markov Model了。这个公式是什么意思呢？它可以表达为，所有可能出现的隐变量状态乘以转移到状态 $j$ 的概率，乘以根据隐变量 $i_{t+1}$ 观察到 $o_{t+1}$ 的概率，乘上根据上一个隐状态观察到的观察变量的序列的概率。
总结

$\color{red}令\alpha_t(i) = P(o_1,\cdots,o_t,i_t = q_i|\lambda)\\ P(O|\lambda) = \sum_{i=1}^N P(O, i_t = q_i | \lambda) = \sum_{i=1}^N \alpha_T(i)\\ \alpha_{t+1}(j)= \sum_{i=1}^N b_j(o_{t+1})\cdot a_{ij} \cdot \alpha_t(i)$
用一个图来进行表示：
假设有隐状态的状态空间数为 $N$ ，序列的长度为 $T$ ，那么总的时间复杂度为 $\color{red}\mathcal{O}(TN^2)$ 。

14.3 后向算法

后向概率的推导实际上比前向概率的理解要难，前向算法是一个联合概率，而后向算法则是一个条件概率，所以后向的概率实际上比前向难求很多。

基本思路
下图是Hidden Markov Model的拓扑结构图：

定义：
$\color{red}\beta _{t}(i)=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\tag{14.3.1}$
则 $\color{blue}\beta_1(t)= P(o_{2},\cdots,o_T|i_1 = q_i,\lambda)$ 。计算目标 $\color{blue}P(O|\lambda)$ 可以表示为：：
$\begin{array}{ll}P(O|\lambda )&=P(o_{1},\cdots ,o_{T}|\lambda )\\ &=\sum_{i=1}^{N}P(o_{1},\cdots ,o_{T},i_{1}=q_{i}|\lambda )\\ &=\sum_{i=1}^{N}P(o_{1},\cdots ,o_{T}|i_{1}=q_{i},\lambda )\underset{\pi _{i}}{\underbrace{P(i_{1}=q_{i}|\lambda )}}\\ &=\sum_{i=1}^{N}P(o_{1}|o_{2},\cdots ,o_{T},i_{1}=q_{i},\lambda )\underset{\beta _{1}(i)}{\underbrace{P(o_{2},\cdots ,o_{T}|i_{1}=q_{i},\lambda )}}\pi _{i}\\ &=\sum_{i=1}^{N}P(o_{1}|i_{1}=q_{i},\lambda )\beta _{1}(i)\pi _{i}\\ &=\sum_{i=1}^{N}b_{i}(o_{1})\beta _{1}(i)\pi _{i}\end{array}\tag{14.3.2}$
现在已成功的找到 $\color{red}P(O|\lambda)和第一个状态之间的关系$ 。其中：
- $\pi_i$ 为某个状态的初始状态的概率；
- $b_i(o_1)$ 表示为第 $i$ 个隐变量产生第1个观测变量的概率；
- $\beta_1(i)$ 表示为第一个观测状态确定以后生成后面观测状态序列的概率。结构图如下所示：
求解递推关系
因此如果我们能找到 $\color{blue}\beta _{t}(i)$ 到 $\color{blue}\beta _{t+1}(j)$ 的递推式，就可以由通过递推得到 $\color{blue}\beta _{1}(i)$ ，从而计算 $P(O|\lambda )$ ，则递推公式是：
$\begin{array}{ll}\beta _{t}(i)&=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\\ &=\sum_{j=1}^{N}P(o_{t+1},\cdots ,o_{T},i_{t+1}=q_{j}|i_{t}=q_{i},\lambda )\\ &=\sum_{j=1}^{N}{\color{Red}{P(o_{t+1},\cdots ,o_{T}|i_{t+1}=q_{j},i_{t}=q_{i},\lambda)}}{\color{Blue}{P(i_{t+1}=q_{j}|i_{t}=q_{i},\lambda )}}\\ &=\sum_{j=1}^{N}{\color{Red}{P(o_{t+1},\cdots ,o_{T}|i_{t+1}=q_{j},\lambda)}}{\color{Blue}{a_{ij}}}\\ &=\sum_{j=1}^{N}{\color{Orange}{P(o_{t+1}|o_{t+2},\cdots ,o_{T},i_{t+1}=q_{j},\lambda)}}{\color{Orchid}{P(o_{t+2},\cdots ,o_{T}|i_{t+1}=q_{j},\lambda)}}{\color{Blue}{a_{ij}}}\\ & (从这一步到下一步满足:A\perp C|B\Leftrightarrow 若B被观测，则路径被阻塞。)\\ &=\sum_{j=1}^{N}{\color{Orange}{P(o_{t+1}|i_{t+1}=q_{j},\lambda)}}{\color{Orchid}{\beta _{t+1}(j)}}{\color{Blue}{a_{ij}}}\\ &=\sum_{j=1}^{N}{\color{Orange}{b_{j}(o_{t+1})}}{\color{Blue}{a_{ij}}}{\color{Orchid}{\beta _{t+1}(j)}}\end{array}\tag{14.3.3}$
其中第五行到第六行的推导 $\color{blue}P(o_{t+1},\cdots,o_T |i_{t+1} = q_j, i_t = q_i) = P(o_{t+1},\cdots,o_T |i_{t+1} = q_j)$ 使用的马尔可夫链的性质，每一个状态都是后面状态的充分统计量，与之前的状态无关。
总结

$\color{red}定义：\beta _{t}(i)=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\\ P(O|\lambda )=\sum_{i=1}^{N}b_{i}(o_{1})\beta _{1}(i)\pi _{i}\\ \beta _{t}(i)=\sum_{j=1}^{N}{\color{Orange}{b_{j}(o_{t+1})}}{\color{Blue}{a_{ij}}}{\color{Orchid}{\beta _{t+1}(j)}}\tag{14.3.4}$
通过这样的迭代从后往前推，我们就可以得到 $\beta_i(1)$ 的概率，从而推断出 $P(O|\lambda)$ 。整体的推断流程图如下图所示：

这就是后向算法，其复杂度也为 $\color{red}O(TN^{2})$ 。

14.4 Beco Decoding算法(Learning)

14.4.1 问题简化

上两节讲的是HMM的Evaluating部分，接下来讲HMM的Learning部分。即目标是： $\color{blue}在已知观测数据的情况下求参数\lambda$ ：
$\lambda_{MLE} = \arg\max_{\lambda} P(O|\lambda)\tag{14.4.1}$
因为：
$P(O|\lambda) = \sum_I P(O,I|\lambda) = \sum_{i_1}\cdots\sum_{i_T} \pi_{i_1} \prod_{t=2}^T a_{i_{t-1},i_{t}} \prod_{t=1}^T b_{i_1}(o_t)\tag{14.4.2}$
对这个方程的 $\lambda$ 求偏导，实在是太难算了。
问题简化
所以考虑使用EM算法。先来回顾一下EM算法：
$\theta^{(t+1)} = \arg\max_\theta \int_z \log P(X,Z|\theta)\cdot P(Z|X,\theta^{(t)}) dZ\tag{14.4.3}$
其中：
- $X\rightarrow O$ 为观测变量；
- $Z\rightarrow I$ 为隐变量，其中 $I$ 为离散变量；
- $\theta \rightarrow \lambda$ 为参数。
  那么，可以将公式（14.4.3）改写为：
  $\lambda^{(t+1)} = \arg\max_\lambda \sum_I \log P(O,I|\lambda)\cdot P(I|O,\lambda^{(t)})\tag{14.4.4}$
  每次迭代 $\lambda^{(t+1)}$ ， $\lambda^{(t)}$ 是一个常数，即：
  $P(I|O,\lambda^{(t)}) = \frac{P(I,O|\lambda^{(t)})}{P(O|\lambda^{(t)})}\tag{14.4.5}$
  并且 $P(O|\lambda^{(t)})$ 中 $\lambda^{(t)}$ 是常数，所以这项是个定量，与 $\lambda$ 无关，所以 $\color{red}\frac{P(I,O|\lambda^{(t)})}{P(O|\lambda^{(t)})} \propto P(I,O|\lambda^{(t)})$ 。所以等式(14.4.4)改写为：
  $\color{red}\lambda^{(t+1)} = \arg\max_\lambda \sum_I \log P(O,I|\lambda)\cdot P(I,O|\lambda^{(t)})\tag{14.4.6}$
  其中 $\color{blue}\lambda^{(t)} = (\pi^{(t)}, \mathcal{A}^{(t)}, \mathcal{B}^{(t)})$ ，而 $\color{blue}\lambda^{(t+1)} = (\pi^{(t+1)}, \mathcal{A}^{(t+1)}, \mathcal{B}^{(t+1)})$ 。这样做有什么目的呢？可以把 $\log P(O,I|\lambda)$ 和 $P(I,O|\lambda^{(t)})$ 变成一种形式。
公式优化
对于公式(14.4.6)，定义：
$Q(\lambda,\lambda^{(t)}) = \sum_I \log P(O,I|\lambda)\cdot P(O,I|\lambda^{(t)})\tag{14.4.7}$
因为公式(14.4.2)化简可知： $P(O,I|\lambda) = \pi_{i_1} \prod_{t=2}^T a_{i_{t-1},i_{t}} \prod_{t=1}^T b_{i_1}(o_t)$ 。所以：
$\color{red}Q(\lambda,\lambda^{(t)}) = \sum_I \left[ \left( \log \pi_{i_1} + \sum_{t=2}^T \log a_{i_{t-1},i_t} + \sum_{t=1}^T \log b_{i_t}(o_t) \right)\cdot P(O,I|\lambda^{(t)}) \right]\tag{14.4.8}$

14.4.2 求解最优值

以 $\pi^{(t+1)}$ 为例，在公式 $Q(\lambda,\lambda^{(t)})$ 中， $\color{blue}\sum_{t=2}^T \log a_{i_{t-1},i_t}$ 与 $\color{blue}\sum_{t=1}^T \log b_{i_t}(o_t)$ 与 $\color{blue}\pi$ 无关，所以，
$\begin{array}{ll} \pi^{(t+1)} &= \arg\max_{\pi} Q(\lambda,\lambda^{(t)}) \\ &= \arg\max_{\pi} \sum_I [\log \pi_{i_1} \cdot P(O,I|\lambda^{(t)})] \\ &= \arg\max_{\pi} \sum_{i_1}\cdots \sum_{i_T}[\log \pi_{i_1} \cdot P(O,i_1,\cdots,i_T|\lambda^{(t)})] \end{array}\tag{14.4.9}$
观察 $\{i_2,\cdots,i_T\}$ 可知， $\color{blue}联合概率分布求和可以得到边缘概率$ 。所以：
$\begin{array}{ll} \pi^{(t+1)} &= \arg\max_{\pi} \sum_{i_1} [\log \pi_{i_1} \cdot P(O,i_1|\lambda^{(t)})] \\ &= \arg\max_{\pi} \sum_{i=1}^N [\log \pi_{i} \cdot P(O,i_1=q_i|\lambda^{(t)})] \qquad \end{array}\tag{14.4.10}$
优化问题可以描述为：
$\color{red}\{\begin{array}{ll} \pi^{(t+1)} = \underset{\pi}{\arg\max} \sum_{i=1}^N [\log \pi_{i} \cdot P(O,i_1=q_i|\lambda^{(t)})] \\ s.t. \ \sum_{i=1}^N \pi_i = 1\end{array}\tag{14.4.11}$
拉格朗日乘子法求解
根据拉格朗日乘子法，我们可以将损失函数写完：
$\mathcal{L}(\pi,\eta) = \sum_{i=1}^N \log \pi_{i} \cdot P(O,i_1=q_i|\lambda^{(t)}) + \eta(\sum_{i=1}^N \pi_i - 1)\tag{14.4.12}$
使似然函数最大化，则是对损失函数 $\mathcal{L}(\pi,\eta)$ 求偏导，则为：
$\begin{array}{ll}& \frac{\mathcal{L}}{\pi_i} = \frac{1}{\pi_i} P(O,i_1=q_i|\lambda^{(t)}) + \eta = 0 \\ & P(O,i_1=q_i|\lambda^{(t)}) + \pi_i\eta = 0\end{array}\tag{14.4.13}$
又因为 $\sum_{i=1}^N \pi_i = 1$ ，所以将公式(14.4.13)进行求和，可以得到：
$\sum_{i=1}^N [P(O,i_1=q_i|\lambda^{(t)}) + \pi_i\eta] = 0 \Rightarrow P(O|\lambda^{(t)}) + \eta = 0\tag{14.4.14}$
所以，我们解得 $\color{red}\eta = -P(O|\lambda^{(t)})$ ，从而推出：
$\color{red}\pi_i^{(t+1)} = \frac{P(O,i_1=q_i|\lambda^{(t)})}{P(O|\lambda^{(t)})}\tag{14.4.15}$
进而，我们就可以推导出 $\color{blue}\pi^{(t+1)} = (\pi_1^{(t+1)},\pi_2^{(t+1)},\cdots,\pi_N^{(t+1)})$ 。而 $\color{blue}\mathcal{A}^{(t+1)}$ 和 $\color{blue}\mathcal{B}^{(t+1)}$ 也都是同样的求法。

这就是大名鼎鼎的Baum Welch算法，实际上思路和EM算法一致。

14.5 Decoding问题

问题描述
- Decoding问题可描述为：
  $\color{red}\hat{I} = \arg\max_{I} P(I|O,\lambda)\tag{14.5.1}$
  在给定观察序列的情况下，寻找最大概率可能出现的隐概率状态序列。即： $\color{red}解码$ 。
  
  也有说Decoding问题是预测问题，但是实际上这样说是并不合适的。预测问题应该是 $P(o_{t+1}|o_1,\cdots,o_t)$ 和 $P(i_{t+1}|o_1,\cdots,o_t)$ ，这里的 $P(i_{1},\cdots,i_t|o_1,\cdots,o_t)$ 看成是预测问题显然是不合适的。
- 图形表示
  Hidden Markov Model的拓扑模型：
  
  实际上就是一个 $\color{blue}动态规划问题$ ，这里的动态规划问题实际上就是最大概率问题。每个时刻都有 $N$ 个状态，所有也就是从 $\color{blue}N^T$ 个可能的序列中找出概率最大的一个序列，如下图所示：
数学表示
- 根据上图，首先定义：
  $\delta _{t}(i)={\color{Red}{\underset{i_{1},i_{2},\cdots ,i_{t-1}}{max}}}P(o_{1},o_{2},\cdots ,o_{t},i_{1},i_{2},\cdots ,i_{t-1},i_{t}=q_{i})\tag{14.5.2}$
  公式(14.5.2)表示：当 $t$ 个时刻是 $q_i$ ，前面 $t - 1$ 个随便走，只要可以到达 $q_i$ 这个状态就行，而从中选取概率最大的序列。
- 递推公式
  下一步的目标：在知道 $\delta_t(i)$ 的情况下如何求 $\delta_t(i+1)$ ，通过递推来求得最后一个状态下概率最大的序列。 $\delta_t(i+1)$ 的求解方法如下所示：
  
  由于参数 $\lambda$ 是已知的，为简便起见省略了 $\lambda$ ，接下来我们需要找到 $\delta _{t+1}(j)$ 和 $\delta _{t}(i)$ 之间的递推式：
  $\begin{array}{ll}\delta _{t+1}(j)&=\underset{i_{1},i_{2},\cdots ,i_{t}}{max}P(o_{1},o_{2},\cdots ,o_{t+1},i_{1},i_{2},\cdots ,i_{t},i_{t+1}=q_{j})\\ &={\color{Red}{\underset{1\leq i\leq N}{max}}}{\color{blue}\delta _{t}(i)a_{ij}b_{j}(o_{t+1})}\end{array}\tag{14.5.3}$
  这就是 $\color{red}Viterbi算法$ ，但是这个算法最后求得的是一个值，没有办法求得路径。
- 记录路径
  如果要想求得路径，我们需要引入一个变量，因此定义：
  $\psi _{t+1}(j)={\color{Red}{\underset{1\leq i\leq N}{argmax}}}\; \delta _{t}(i)a_{ij}\tag{14.5.3}$

因此：
$max\; P(I|O)=max\; \delta _{t}(i)\tag{14.5.4}$

使 $P (I ∣ O)$ 最大的 $\delta _{t}(i)$ 指t时刻 $i_t=q_i$ ，然后由 $\psi _{t}(i)$ 得到 $t - 1$ 时刻 $i_{t-1}$ 的取值，然后继续得到前一时刻的 $i_{t-2}$ 时刻的取值，最终得到整个序列 $I$ 。

14.6 总结

14.6.1 HMM简述

基本概念

图1
1. 序列和集合
  - $\color{red}I=\{i_1,i_2,\cdots,i_t,\cdots,i_T\}\rightarrow 状态序列$ ， $\color{red}\mathcal{Q} = \{q_1,q_2,\cdots,q_N\}\rightarrow 状态值集合$ 。
  - $\color{red}O=\{o_1,o_2,\cdots,o_t,\cdots,o_T\}\rightarrow 观测序列$ ， $\color{red}\mathcal{V} = \{v_1,v_2,\cdots,v_M\}\rightarrow 状态值集合$ 。
2. $\color{red}\lambda = (\pi, \mathcal{A}, \mathcal{B})$
  - $\color{red}\pi$ ：初始概率分布。 $\color{red}\pi=\{P_{(1)}(0),P_{(1)}(1),\cdots,P_{(1)}(M)\}$ 。
  - $\color{red}\mathcal{A}$ ：状态转移矩阵， $\color{red}a_{ij} = P(i_{(i+1)}=q_j|i_{(t)}=q_i)$ 。
  - $\color{red}\mathcal{B}$ ：发射矩阵， $\color{red}b_j(k) = P(o_t = V_k | i_t = q_j)$ 。
3. 两个假设
  - $\textbf{齐次马尔可夫假设：}$ $\color{red}P(i_{t+1}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(i_{t+1}|i_t)$
  - $\textbf{观测独立假设：}$ $\color{red}P(o_{t}|i_{t},i_{t-1},\cdots,i_1,o_t,\cdots,o_1) = P(o_{t}|i_t)$
4. 三个问题
  - Evaluation：Given $\color{blue}\lambda$ ，求 $\color{red}P(O|\lambda)$ 。(Forward-Backward)
  - Learning: $\color{red}\lambda_{MLE} = \arg\max_{\lambda}P(O|\lambda)$ 。(EM算法和Baum Welch算法)
  1. Decoding： $\color{red}\hat{I} = \arg\max_{I}P(I|O,\lambda)$ 。(Viterbi)
前向算法
- 问题描述
  
  $\color{red}令\alpha_t(i) = P(o_1,\cdots,o_t,i_t = q_i|\lambda)\\ P(O|\lambda) = \sum_{i=1}^N P(O, i_t = q_i | \lambda) = \sum_{i=1}^N \alpha_T(i)\\ \alpha_{t+1}(j)= \sum_{i=1}^N b_j(o_{t+1})\cdot a_{ij} \cdot \alpha_t(i)\tag{14.6.1}$
- 用一个图来进行表示：
  假设有隐状态的状态空间数为 $N$ ，序列的长度为 $T$ ，那么总的时间复杂度为 $\color{red}\mathcal{O}(TN^2)$
后向算法
- 问题描述：
  
  $\color{red}定义：\beta _{t}(i)=P(o_{t+1},\cdots ,o_{T}|i_{t}=q_{i},\lambda )\\ P(O|\lambda )=\sum_{i=1}^{N}b_{i}(o_{1})\beta _{1}(i)\pi _{i}\\ \beta _{t}(i)=\sum_{j=1}^{N}{\color{Orange}{b_{j}(o_{t+1})}}{\color{Blue}{a_{ij}}}{\color{Orchid}{\beta _{t+1}(j)}}\tag{14.6.2}$
- 通过这样的迭代从后往前推，可以得到 $\beta_i(1)$ 的概率，从而推断出 $P(O|\lambda)$ 。整体的推断流程图如下图所示：
  
  这就是后向算法，其复杂度也为 $\color{red}O(TN^{2})$ 。
Beco Decoding算法(Learning)
- 问题描述：
  $\color{red}\begin{array}{ll}\lambda^{(t+1)} & = \arg\underset{\lambda}{\max} P(O|\lambda)\\ &= \arg\underset{\lambda}{\max} \sum_I \log P(O,I|\lambda)\cdot P(I,O|\lambda^{(t)})\end{array}\tag{14.6.3}$
- 对于 $\pi_i^{(t+1)}$ 解得 $\color{red}\eta = -P(O|\lambda^{(t)})$ ，从而推出：
  $\color{red}\pi_i^{(t+1)} = \frac{P(O,i_1=q_i|\lambda^{(t)})}{P(O|\lambda^{(t)})}\tag{14.6.4}$
  进而，我们就可以推导出 $\color{blue}\pi^{(t+1)} = (\pi_1^{(t+1)},\pi_2^{(t+1)},\cdots,\pi_N^{(t+1)})$ 。而 $\color{blue}\mathcal{A}^{(t+1)}$ 和 $\color{blue}\mathcal{B}^{(t+1)}$ 也都是同样的求法。这就是Baum Welch算法，实际上思路和EM算法一致。
Decoding问题
- 问题描述为：
  $\color{red}\hat{I} = \arg\max_{I} P(I|O,\lambda)\tag{14.6.5}$
- 定义：
  $\delta _{t}(i)={\color{Red}{\underset{i_{1},i_{2},\cdots ,i_{t-1}}{max}}}P(o_{1},o_{2},\cdots ,o_{t},i_{1},i_{2},\cdots ,i_{t-1},i_{t}=q_{i})\tag{14.6.6}$
  公式(14.6.6)表示：当 $t$ 个时刻是 $q_i$ ，前面 $t - 1$ 个随便走，只要可以到达 $q_i$ 这个状态就行，而从中选取概率最大的序列。
- 递推公式
  $\begin{array}{ll}\delta _{t+1}(j)&={\color{Red}{\underset{1\leq i\leq N}{max}}}{\color{blue}\delta _{t}(i)a_{ij}b_{j}(o_{t+1})}\end{array}\tag{14.6.7}$
- 记录路径
  引入一个变量记录路径，定义：
  $\psi _{t+1}(j)={\color{Red}{\underset{1\leq i\leq N}{argmax}}}\; \delta _{t}(i)a_{ij}\tag{14.6.8}$

14.6.2 拓展

分类
- HMM 是⼀种动态模型（ $\color{red}Dynamic Model$ ），是由混合树形模型和时序结合起来的⼀种模型（类似 $\color{red}GMM + Time$ ）。对于类似 HMM 的这种状态空间模型（ $\color{red}State Space Model$ ），普遍的除了学习任务（采⽤ EM ）外，还有推断任务。
- 使用 $\color{blue}X$ 代表观测序列， $\color{blue}Z$ 代表隐变量序列， $\color{blue}\lambda$ 代表参数。这一类模型需要求解的问题的大体框架为：
  $\left\{\begin{array}{ll} Learning:\lambda _{MLE}=\underset{\lambda }{argmax}\; P(X|\lambda ){\color{Blue}{【Baum\; Welch\; Algorithm(EM)】}}\\ Inference\left\{\begin{array}{ll} &Decoding:Z=\underset{Z}{argmax}\; P(Z|X,\lambda ){\color{Blue}{【Viterbi\; Algorithm】}}\\ &Prob\; of\; evidence:P(X|\lambda ){\color{Blue}{【Forward\; Algorithm, Backward\; Algorithm】}}\\ &Filtering:P(z_{t}|x_{1},x_{2},\cdots ,x_{t},\lambda ){\color{red}{(online)}}{\color{Blue}{【Forward\; Algorithm】}}\\ &Smoothing:P(z_{t}|x_{1},x_{2},\cdots ,x_{T},\lambda ){\color{red}{(offline)}}{\color{Blue}{【Forward-Backward\; Algorithm】}}\\ &Prediction:\begin{Bmatrix} P(z_{t+1}|x_{1},x_{2},\cdots ,x_{t},\lambda )\\ P(x_{t+1}|x_{1},x_{2},\cdots ,x_{t},\lambda ) \end{Bmatrix}{\color{Blue}{【Forward\; Algorithm】}} \end{array}\right. \end{array}\right.$
  Learning问题，Decoding问题和Prob of evidence问题上面已经介绍了，接下来对Filtering&Smoothing&Prediction问题做一些说明，下面使用 $\color{red}x_{1:t}$ 代表 $\color{red}x_{1},x_{2},\cdots ,x_{t}$ ，同时也省略已知参数 $\color{blue}\lambda$ 。
Filtering问题
Online-Learning过程是：不停的往模型里面喂数据，我们可以得到概率分布为： $\color{blue}P(z_t|x_1,\cdots,x_t)$ 。为什么叫滤波呢？这是由于求的后验是 $\color{blue}P(z_t|x_1,\cdots,x_t)$ ，运用到了大量的历史信息，比 $\color{blue}P(z_t|x_t)$ 的推断更加的精确，可以过滤掉更多的噪声，所以被我们称为 $\color{red}“过滤”$ 。求解过程如下所示：
$\color{blue}P(z_{t}|x_{1:t})=\frac{P(x_{1:t},z_{t})}{P(x_{1:t})}=\frac {P(x_{1:t},z_{t})}{\sum _{z_{t}}P(x_{1:t},z_{t})} \propto P(x_{1:t},z_{t})=\alpha _{t}\tag{14.6.9}$
其中 $\alpha _{t}$ 是公式(14.6.1)中的。因此使用Forward Algorithm来解决Filtering问题。Filtering问题通常出现在online learning中，当新进入一个数据，可以计算概率 $P(z_{t}|x_{1:t})$ 。
Smoothing问题
- Smoothing问题和Filtering问题的性质非常的像，不同的是，Smoothing问题需要观测的是一个不变的完整序列。对于Smoothing问题的计算，前面的过程和Filtering一样，都是：
  $\color{blue}P(z_{t}|x_{1:T})=\frac{P(x_{1:T},z_{t})}{P(x_{1:T})}=\frac{P(x_{1:T},z_{t})}{\sum _{z_{t}}P(x_{1:T},z_{t})}\tag{14.6.10}$
- 因为 $\sum_{z_t} P(z_t,x_1:x_T)$ 是一个归一化常数，这里不考虑。下面的主要问题是关于 $P(z_t,x_1:x_T)$ 如何计算，我们来进行推导：
  $\color{blue}\begin{array}{ll}P(x_{1:T},z_{t})&=P(x_{1:t},x_{t+1:T},z_{t})\\ &={\color{Red}{P(x_{t+1:T}|x_{1:t},z_{t})}}\cdot \underset{\alpha _{t}}{\underbrace{P(x_{1:t},z_{t})}}\\ &=\underset{\beta _{t}}{\underbrace{{\color{Red}{P(x_{t+1:T}|z_{t})}}}}\cdot \alpha _{t}\\ &=\alpha _{t}\beta _{t}\end{array}\tag{14.6.11}$
  其中 $\alpha _{t}$ 和 $\beta _{t}$ 是公式(14.6.1)和公式(14.6.2)中的。
- 公式（14.6.11）红色这一步是使用了有向图的D划分的方法，有关讲解参照机器学习-白板推导系列(九)-概率图模型之表示。这里我们定义 $\color{blue}A$ 集合为 $\color{blue}x_{1:t}$ ， $\color{blue}B$ 集合为 $\color{blue}x_{t+1:T}$ ， $\color{blue}C$ 集合为 $\color{blue}z_t$ ，通过D划分的方法我们可以知道 $\color{blue}x_{A}\perp x_{B}|x_{C}$ ，即 $\color{blue}x_{t+1:T}$ 与 $\color{blue}x_{1:t}$ 是相互独立的。
  
  最终得到的就是：
  ${\color{red}P(z_t|x_{1:T}) \propto P(x_{1:T},z_t) = \alpha_t\beta_t}\tag{14.6.12}$
- 因此解决Smoothing问题的算法叫做Forward-Backward Algorithm。Smoothing问题通常出现在offline learning中，当知道全部观测数据时，来计算概率 $P(z_{t}|x_{1:T})$ 。
Prediction问题
预测问题，大体上被我们分成两个方面：
- 求解 $P(z_{t+1}|x_1,\cdots,x_t)$
  $\color{blue}\begin{array}{ll}P(z_{t+1}|x_{1:t})&=\sum _{z_{t}}P(z_{t+1},z_{t}|x_{1:t})\\ &=\sum _{z_{t}}P(z_{t+1}|z_{t},x_{1:t})\cdot P(z_{t}|x_{1:t})\\ &=\sum _{z_{t}}P(z_{t+1}|z_{t})\cdot \underset{Filtering}{\underbrace{P(z_{t}|x_{1:t})}}\end{array}\tag{14.6.13}$
  上式应用了齐次马尔可夫假设将预测 $P(z_{t+1}|x_{1:t})$ 的问题进行了转化，使用转移概率和求解Filtering问题的方法就可以计算这个概率。
- 预测 $P(x_{t+1}|x_{1:t})$
  $\color{blue}\begin{array}{ll}P(x_{t+1}|x_{1:t})&=\sum _{z_{t+1}}P(x_{t+1},z_{t+1}|x_{1:t})\\ &=\sum _{z_{t+1}}P(x_{t+1}|z_{t+1},x_{1:t})\cdot P(z_{t+1}|x_{1:t})\\ &=\sum _{z_{t+1}}P(x_{t+1}|z_{t+1})\cdot \underset{Precition}{\underbrace{P(z_{t+1}|x_{1:t})}}\end{array}\tag{14.6.14}$
  上式应用了观测独立假设将预测 $P(x_{t+1}|x_{1:t})$ 的问题进行了转化，使用发射概率和求解上一个Prediction问题的方法就可以计算这个概率。

Paul-Huang

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习-白板推导系列(十四)-隐马尔科夫(HMM，Hidden Markov Model)

14. 隐马尔科夫(HMM，Hidden Markov Model)14.1 背景14.1.1 概念回顾机器学习派别机器学习大致可分两派别：频率派和贝叶斯派的方法。频率派频率派的思想就衍生出了统计学习方法，统计学习方法的重点在于优化，找loss function。频率派的方法可以分成三步：定义Model，比如f(w)=wTx+bf(w) = w^Tx+bf(w)=wTx+b；寻找策略strategy，也就是定义Loss function；求解，寻找优化的方法，比如梯度下降(GD)，随
复制链接

扫一扫