隐马尔可夫模型(HMM)进阶篇——Evaluation 前向&后向算法

friedrichor

已于 2022-04-04 17:22:41 修改

阅读量739

点赞数 1

分类专栏：机器学习/深度学习文章标签：机器学习深度学习

于 2022-04-02 17:33:37 首次发布

本文链接：https://blog.csdn.net/Friedrichor/article/details/123906894

版权

机器学习/深度学习专栏收录该内容

16 篇文章 8 订阅

订阅专栏

前言

不太了解隐马尔可夫模型的可以先看我的上一篇博客：隐马尔可夫模型(HMM)初级篇

基础知识

在这里插入图片描述

定义：

观测序列 $O$ ，观测值集合 $Q=\{q_1,q_2, ...,q_N\}$
状态序列 $I$ ，状态值集合 $V=\{v_1,v_2, ..., v_M\}$
初始状态概率向量 $π$
状态转移概率矩阵 $A$ ， $a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$
观测概率矩阵 $B$ ， $b_j(k)=P(o_t=v_k|i_t=q_j)$

$λ = (π, A, B)$ 为 HMM 三要素。

两个假设：

齐次马尔可夫性假设
$P(i_t | i_{t-1}, o_{t-1}, ... , i_1, o_1) = P(i_t | i_{t-1}), t = 1, 2, ..., T$
观测独立性假设
$P(o_t | i_T, o_T, i_{T-1}, o_{T-1}, ... , i_{t+1}, o_{t+1}, i_t, i_{t-1}, o_{t-1}, ..., i_1, o_1) = P(o_t | i_t)$

HMM的三个问题

Evaluation
$P (O ∣ λ)$ ——分为前向、后向
Learning
$λ$ 如何求解？——EM算法（ $λ = a r g m a x P (O ∣ λ)$ ）
Decoding
找到最大序列的状态应该是什么？就是找到 $I = a r g m a x P (I ∣ O)$
可以引申出两个问题：预测问题—— $P(i_{t+1}|o_1, o_2, ..., o_t)$ 预测下一状态的隐状态；滤波问题 $P(i_t|o_1, o_2, ..., o_t)$

Evaluation

问题描述

即 给出 $λ$ ，求 $P (O ∣ λ)$
$\begin{aligned} P(O| λ) = \sum_I P(O,I|λ) = \sum_I P(O| I,λ) \cdot P(I| λ)\ \ \ \ \ ① \end{aligned}$

$\begin{aligned} P(I|λ)=P(i_1,i_2, ..., i_T|λ)=P(i_T|i_1,i_2, ..., i_{T-1},λ)\cdot P(i_1,i_2, ..., i_{T-1}, λ)\ \ \ \ \ ② \end{aligned}$

根据齐次马尔可夫性假设和状态转移矩阵
$P(i_T|i_1,i_2, ..., i_{T-1},λ)=P(i_T|i_{T-1})=a_{i_{T-1},i_T}\ \ \ \ \ ③$

同理，再结合条件概率的乘法

$\begin{aligned} P(i_1,i_2, ..., i_{T-1}, λ) &= P(i_{T-1}|i_1,i_2, ..., i_{T-2},λ)\cdot P(i_{T-2}|i_1,i_2, ..., i_{T-3},λ)\cdot ...\cdot P(i_2|i_1,λ)\cdot P(i_1|λ) \\ &=a_{i_{T-2},i_{T-1}}\cdot a_{i_{T-3},i_{T-2}}\cdot ...\cdot a_{i_2,i_1}\cdot π(i_1)\ \ \ \ \ ④\\ P(i_1|λ)\ 即\ π(i_1) \end{aligned}$

那么，
$\begin{aligned} P(I|λ)&=P(i_1,i_2, ..., i_T|λ)\\ &=P(i_T|i_1,i_2, ..., i_{T-1},λ)\cdot P(i_1,i_2, ..., i_{T-1}, λ)\\ &=a_{i_{T},i_{T-1}}\cdot a_{i_{T-2},i_{T-1}}\cdot ...\cdot a_{i_2,i_1}\cdot π(i_1)\\ &=π(i_1) \cdot \prod_{t=2}^T a_{i_{t-1},i_{t}}\ \ \ \ \ ⑤ \end{aligned}$

由上面的HMM图解可知，
$P(O|I,λ)=\prod_{t=1}^T b_{i_t}(o_t) \ \ \ \ \ ⑥$
由⑤⑥可得①为：
$\begin{aligned} P(O| λ) &= \sum_I \left[ π(i_1) \cdot \prod_{t=2}^T a_{i_{t-1},i_{t}} \cdot \prod_{t=1}^T b_{i_t}(o_t) \right] \\ &= \sum_{i_1}\sum_{i_2}...\sum_{i_T} \left[ π(i_1) \cdot \prod_{t=2}^T a_{i_{t-1},i_{t}} \cdot \prod_{t=1}^T b_{i_t}(o_t) \right]\ \ \ \ \ ⑦ \end{aligned}$

每个 $i$ 都有 $N$ 种可能，那么⑦的复杂度即为 $O(N^T)$ ，即随着序列长度 $T$ 指数级增长。

可见这种计算方法是十分复杂的，因此需要想其他方法简化计算。

前向算法(Forward Algorithm)

记 $α_t(i) =P(o_1,o_2, ..., o_t, i_t = q_i | λ)$

则 $α_T(i) =P(O, i_t = q_i | λ)$ ，这里 $O$ 即代表 $o_1,o_2, ..., o_T$

于是，有公式
$λ)=\sum_{i=1}^N P(O, i_t=q_i|λ)=\sum_{i=1}^N α_T(i)$

$\begin{aligned} α_{t+1}(j) &=P(o_1,o_2, ..., o_t, i_t = q_j | λ)\\ &=\sum_{i=1}^N P(o_1, ..., o_t, o_{t+1}, i_t=q_i, i_{t+1}=q_j|λ)\\ &=\sum_{i=1}^N P(o_{t+1}|o_1, ..., o_t, i_t=q_i, i_{t+1}=q_j, λ)\cdot P(o_1, ..., o_t, i_t=q_i, i_{t+1}=q_j, λ)\\ &\overset{由观测独立性假设}{=}\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(o_1, ..., o_t, i_t=q_i, i_{t+1}=q_j, λ)\\ &=\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j|o_1, ..., o_t, i_t=q_i, λ)\cdot P(o_1, ..., o_t, i_t=q_i|λ)\\ &\overset{由齐次马尔可夫性假设}{=}\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j|i_t=q_i, λ)\cdot P(o_1, ..., o_t, i_t=q_i|λ)\\ &=\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j|i_t=q_i, λ)\cdot α_t(i) \\ &=\sum_{i=1}^N b_j(o_{t+1})\cdot α_t(i) \cdot a_{ij} \end{aligned}$

这样就得到了一个递归公式，可以计算 $α_T(i)$ ，从而可算 $P (O ∣ λ)$ 。复杂度为 $O(T\times N^2)$ 。

后向算法(backward algorithm)

记 $β_t(k)=P(o_{t+1}, ..., o_T|i_t=q_k, λ)$

则 $β_1(k)=P(o_{2}, ..., o_T|i_1=q_k, λ)$

$\begin{aligned} P(O| λ)&=P(o_1,o_2, ..., o_T| λ)\\ &=\sum_{k=1}^N P(o_1,o_2, ..., o_T,i_1=q_k) \qquad\text{(λ是给定值，就不写上去了)}\\ &=\sum_{k=1}^N P(o_1,o_2, ..., o_T|i_1=q_k) \cdot P(i_1=q_k)\\ &=\sum_{k=1}^N P(o_1,o_2, ..., o_T|i_1=q_k) \cdot π_k\qquad (P(i_1=q_k)即是初始状态概率 π_k)\\ &=\sum_{k=1}^N P(o_1|o_2, ..., o_T, i_1=q_k) \cdot P(o_2, ..., o_T| i_1=q_k)\cdot π_k\\ &\overset{由观测独立性假设}{=}\sum_{k=1}^N P(o_1|i_1=q_k) \cdot P(o_2, ..., o_T| i_1=q_k)\cdot π_k\\ &=\sum_{k=1}^N P(o_1|i_1=q_k) \cdot β_1(i)\cdot π_k\\ &=\sum_{k=1}^N b_k(o_1) \cdot β_1(k)\cdot π_k \end{aligned}$

$\begin{aligned} β_t(k)&=P(o_{t+1}, ..., o_T|i_t=q_k) \qquad(同样省略了λ)\\ &=\sum_{j=1}^N P(o_{t+1}, ..., o_T, i_{t+1}=q_j |i_t=q_k)\\ &=\sum_{j=1}^N P(o_{t+1}, ..., o_T| i_{t+1}=q_j, i_t=q_k)\cdot P(i_{t+1}=q_j| i_t=q_k)\\ &=\sum_{j=1}^N P(o_{t+1}, ..., o_T| i_{t+1}=q_j, i_t=q_k)\cdot a_{kj}\\ &=\sum_{j=1}^N P(o_{t+1}, ..., o_T| i_{t+1}=q_j)\cdot a_{kj}\qquad (这步转换解释见下面)\\ &=\sum_{j=1}^N P(o_{t+1}| o_{t+2} ..., o_T, i_{t+1}=q_j)\cdot P(o_{t+2} ..., o_T, |i_{t+1}=q_j) \cdot a_{kj}\\ &=\sum_{j=1}^N P(o_{t+1}| o_{t+2} ..., o_T, i_{t+1}=q_j)\cdot β_{t+1}(k)\cdot a_{kj}\\ &\overset{由观测独立性假设}{=}\sum_{j=1}^N P(o_{t+1}| i_{t+1}=q_j)\cdot β_{t+1}(k)\cdot a_{kj}\\ &=\sum_{j=1}^N b_j(o_{t+1})\cdot a_{kj}\cdot β_{t+1}(k) \end{aligned}$
相关解释：

通过上式就可以从 $β_T(k)$ 开始递归推导 $β_{T-1}(k), ..., β_1(k)$ ，从而得到 $P (O ∣ λ)$ 。复杂度为 $O(T\times N^2)$ 。
在贝叶斯网络中，正常来说a和c是有关联的，但一旦给定b，那么会发生阻断，a、c相互独立，有 $P (c ∣ a, b) = P (c ∣ b)$ 。同理应用到 $i_t,i_{t+1},o_{t+1}$ ，有 $P(o_{t+1}|i_t,i_{t+1})=P(o_{t+1}|i_{t+1})$