机器学习:隐马尔可夫模型——概率计算算法

最新推荐文章于 2021-06-08 11:20:58 发布

无聊的人生事无聊

最新推荐文章于 2021-06-08 11:20:58 发布

阅读量615

点赞数

分类专栏：信息科学文章标签：机器学习 HMM

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/97267825

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

问答总结

直接计算法是如何通过公式导出的？
直接计算法复杂度为多少，为什么会有如此高的复杂度?
前向后向算法优化复杂度的本质是什么?

动态规划，防止多次计算重复子问题
前向算法状态定义是什么？目标态是什么? 状态转移图和方程是什么？初态是什么？
后向算法状态定义是什么? 目标态是什么? 状态转移图和方程是什么？初态是什么?
前向后向概率的管辖范围直观图是怎样的?
由管辖范围直观图直接得出重要的概率与期望值计算方式。

一、目标

前文说过:概率计算任务的目标是:

给定 $\lambda = (A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ , 计算模型 $\lambda$ 下观测序列 $O$ 出现的概率.即 $\lambda)$

二、直接计算法

1、方法

直接对概率公式进行以下变形:
$\begin{aligned} P(O | \lambda) &= \sum_{I}P(O,I|\lambda) \\ &= \sum_{I}P(O|I, \lambda)P(I|\lambda) \end{aligned}$
该公式含义是指：枚举每一种可能的不可观测序列 $I=(i_1,i_2,...,i_T)$ 的情况，然后在每一种情况下求给定观测序列 $O=(o_1, o_2,...,o_T)$ 出现的概率，最后求和得到最终答案。
在这里插入图片描述
结合图，根据观测序列生成过程，我们很容易对公式进行展开。
$\sum_{I}P(O|I, \lambda)P(I|\lambda) = \sum_{i_1,i_2,..,i_T}\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}...a_{T-1T}b_{i_T}(o_T)$

2、复杂度

很明显，共有 $N^T$ 种情况，每种情况复杂度 $O (T)$ ，因此该方法复杂度为 $O(TN^T)$ . 该方法复杂度太高。

二、前向算法

1、方法

仔细观察上方的式子，会发现，我们计算了大量抗余，比如，现在我们有两种可能的不可知状态序列： $I_1=(晴天，雨天，晴天，\textbf{雨天}), I_2=(晴天，雨天，晴天，\textbf{晴天})$

在这两种情况下，前三天的概率计算过程是完全一样的，但是根据直接计算方法，我们得完完整整计算两遍。

既然发现抗余，我们如何解决呢？动态规划！！！

对，本质来说，该问题具有大量重复子问题的特性，因此借鉴动态规划的思想，我们能否通过定义合适的状态来防止多次计算重复子问题? 这就是前向算法的思想本质。

来到求解动态规划问题的步骤:

(1) 定义状态（也称前向概率） $\alpha_t(i)=P(o_1, o_2, ..., o_t, i_t=q_i|\lambda)$ :为(1)给定马尔科夫模型 $\lambda$ 。(2)到时刻 $t$ 部分观测序列为 $o_1, o_2, ..., o_t)$ 。(3)时刻 $t$ 的可观测状态为 $q_i$ 。的概率。（这其实就是动态规划中的dp数组）
(2) 目标状态: $\sum_{i=1}^N\alpha_T(i)$
(3) 状态转移:
- 很明显，状态转移图可表示为:
- 因此状态转移方程为: $\alpha_{t+1}(i)=[\sum_{i=1}^N\alpha_t(j)a_{ji}]b_{i}(o_{t+1})$
(4) 初态: $\alpha_1(i) = \pi_ib_i(o_1)$

2、复杂度

很明显，在每一个时间 $t$ ，我们需要花费 $O(N^2)$ 的时间求解新状态。故总的复杂度为 $O(TN^2)$

三、后向算法

1、方法

既然从前向后防止重复子问题计算可以优化复杂度，那么从后往前是否可以呢？
来看两种可能的不可知状态序列： $I_1=(\textbf{雨天}，晴天，雨天，晴天)， I_2=(\textbf{晴天}，晴天，雨天，晴天)$

在两种情况下，后三天的计算过程是一样的。因此我们可以通过定义状态保存后三天的计算结果以简化计算。

来到动态规划方法的求解步骤:

(1) 定义状态（也称后向概率）: $\beta_t(i)=P(o_{t+1}, o_{t+2}, ..., o_T| i_t=q_i, \lambda)$ 为(1)给定马尔科夫模型 $\lambda$ 。(2)定义在时刻t状态为 $q_i$ 的条件下。(3)从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1}, o_{t+2},...,o_T)$ 。的概率。

个人疑惑：
(1) 为什么后向概率将 $q_i$ 定义在前提上？(毕竟前向概率是定义在结果上的)。
(2) 为什么 $\beta_t(i)$ 的观测序列是从 $o_{t+1}$ 开始的？
个人思考：
这是为了与前向概率配合,其实如果不考虑和前向概率配合，直接将 $i_{t+1}=q_{i}$ 定义在前提上也是可以的。（如何配合在后方会讲到)

(2) 目标状态: $\sum_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$
(3) 状态转移：
- 状态转移图:
- 状态转移方程:
  $\begin{aligned} \beta_t(i) &= \sum_{j=1}^Na_{ij}b_j(o_{t+1)}\beta_{t+1}(j) \\ &=\sum_{j=1}^Np(i_{t+1}=q_j|i_{t}=q_i)p(o_{t+1}|i_{t+1}=q_j,\lambda)p(o_{t+2}, ..., o_T|i_{t+1}=q_j, \lambda) \\ &= \sum_{j=1}^Np(i_{t+1}=q_j|i_{t}=q_i)p(o_{t+1},o_{t+2}, ..., o_T|i_{t+1}=q_j, \lambda) 独立性 \\ &= p(o_{t+1},o_{t+2}, ..., o_T|i_{t}=q_i, \lambda) 全概率公式 \\ &= \beta_t(i) \end{aligned}$
(4) 初态: $\beta_T(i)=1$ .(当 $t = T$ ,只有条件，没有结论，意义为"在此条件下发生什么都行"的概率)。

2、复杂度

很明显，复杂度和前向算法一样，都为 $O(TN^2)$

四、概率与期望值的计算

1、管辖范围

首先使用图示明确前向概率和后向概率的管辖范围：前向概率 $\alpha_t(i)$ (红色)，后向概率: $\beta_t(i)$ (绿色)，绿色箭头表示以 $i_t=q_i$ 为前提:
在这里插入图片描述

2、计算

(1)、定义：给定模型 $\lambda$ 和观测 $O$ , 在时刻 $t$ 处于状态 $q_i$ 的概率。记:
$\gamma_t(i)=P(i_t=q_i|O, \lambda)$

$\gamma_t(i) = \frac{P(i_t=q_i, O|\lambda)}{P(O|\lambda)}$
$P(i_t=q_i, O|\lambda) = \alpha_t(i)\beta_t(i)$ （根据上方图示很容易直观想象出)
$\gamma_t(i) = \frac{\alpha_t(i)\beta_t(i)}{\sum_{j=1}^N\alpha_t(j)\beta_t(j)}$

(2)、定义: 给定模型 $\lambda$ 和观测 $O$ , 在时刻 $t$ 处于状态 $q_i$ ,在时刻 $t + 1$ 处于状态 $q_j$ 的概率。记:
$\xi _t(i,j)=P(i_t=q_i,i_{t+1}=q_j|O, \lambda)$

$\xi_t(i,j) = \frac{P(i_t=q_i,i_{t+1}=q_j,O|\lambda)}{P(O|\lambda)}$
$P(i_t=q_i, i_{t+1}=q_j,O|\lambda) = \alpha_t(i)\beta_{t+1}(j)b_j(o_{t+1})a_{ij}$ （根据上方图示很容易直观想象出)
$\xi_t(i,j) = \frac{\alpha_t(i)\beta_{t+1}(j)b_j(o_{t+1})a_{ij}} {\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)\beta_{t+1}(j)b_j(o_{t+1})a_{ij}}$