机器学习笔记之隐马尔科夫模型（二）

最新推荐文章于 2020-05-08 10:48:11 发布

alwaysRememberrr

最新推荐文章于 2020-05-08 10:48:11 发布

阅读量150

点赞数

分类专栏：机器学习基础笔记文章标签：机器学习

本文链接：https://blog.csdn.net/u014046022/article/details/79830194

版权

机器学习基础笔记专栏收录该内容

17 篇文章 3 订阅

订阅专栏

概率计算算法

1.1 前向算法

前向概率：给定隐马尔科夫模型 $\lambda$ , 定义到时刻 $t$ 的部分观测序列为 $o_1,o_2,\cdots,o_t$ 且状态为 $q_i$ 的概率，记作

α t (i) = P (o 1, o 2, \dots, o t, i t = q i | λ)

$\alpha_t(i) = P(o_1,o_2,\cdots,o_t,i_t=q_i | \lambda)$
可以递推的求得前向概率

α(i) $\alpha(i)$ 及观测概率

P(O|λ) $P(O|\lambda)$ .

前向算法过程

输入：隐马尔科夫模型 $\lambda$ , 观测序列 $O$
输出：观测序列概率 $P(O|\lambda)$

初值
$α (i) = π i b i (o 1), i = 1, 2, \dots, N$ $\alpha(i) = \pi_ib_i(o_1) , i = 1,2,\cdots,N$
递推对 $t = 1,2,\cdots,T-1$ ,

$α t + 1 (i) = [\sum j = 1 N α t (j) a j i] b i (o t + 1), i = 1, 2, \dots, N$ $\alpha_{t+1}(i) = \big[ \sum_{j = 1}^{N} \alpha_t(j)a_{ji}\big] b_i(o_{t+1}), i = 1,2,\cdots,N$
终止

$P (O | λ) = \sum i = 1 N α T (i)$ $P(O|\lambda) = \sum_{i=1}^{N} \alpha_T(i)$

步骤 1 是初始化前向概率，是初始时刻的状态 $i_1 = q_i$ 和观测 $o_1$ 的联合概率。步骤 2 是前向概率的递推公式，计算到时刻 $t+1$ 部分观测序列为 $o_1,o_2,\cdots,o_t,o_{t+1}$ 且在时刻 $t+1$ 处于状态 $q_i$ 的前向概率。

步骤 2 是前向概率的递推公式，计算到时刻 $t+1$ 部分观测序列为 $o_1,o_2,\cdots,o_t,o_{t+1}$ 且在时刻 $(t+1)$ 处于状态 $q_i$ 的前向概率。在递推式中 $\alpha_t(j)$ 是到时刻 $t$ 观测到 $o_1,o_2,\cdots,o_t$ 并在时刻 $t$ 处于状态 $q_i$ 的前向概率，那么乘积 $\alpha_t(j)\cdot a_{ji}$ 就是到时刻 $t$ 观测到 $o_1,o_2,\cdots,o_t$ 并且在时刻 $t$ 处于状态 $q_j$ 而在时刻 $t+1$ 到达状态 $q_i$ 的概率。对这个乘积在时刻 $t$ 所有可能的 $N$ 个状态 $q_j$ 求和，其结果就是到时刻 $t$ 观测为 $o_1,o_2,\cdots,o_t$ 并在时刻 $t+1$ 处于状态 $q_i$ 的联合概率，将方括号的值与观测概率 $b_i(o_{t+1})$ 的乘积刚好是到时刻 $t+1$ 观测到 $o_1,o_2,\cdots,o_t,o_{t+1}$ 并在时刻 $t+1$ 处于状态 $q_i$ 的前向概率 $\alpha_{t+1}(i)$

步骤3 给出了 $P(O|\lambda)$ 的计算公式，因为 $\alpha_T(i) = P(o_1,o_2,\cdots,o_T,i_T = q_i | \lambda)$ , 所以

P (O | λ) = \sum i = 1 N α T (i)

$P(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$
因为对于在T时刻所有的N个可能的状态求和那么前向概率中的

(iT=qi) $(i_T = q_i)$ 约束就被消除了，就有了上面的公式。

前向算法实际是基于“状态序列的路径结构”递推的计算 $P(O|\lambda)$ 算法。其时间复杂度是 $O(N^2T)$ 。

1.2 后向算法

后向概率：给定隐马尔科夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_1,o_2,\cdots,o_T$ 的概率为后向概率，记作：

β t (i) = P (o t + 1, o t + 2, \dots, o T | i t = q i, λ)

$\beta_t(i) = P(o_{t+1},o_{t+2},\cdots,o_T| i_t = q_i,\lambda)$
可以用递推的方法求得后巷概率

βt(i) $\beta_t(i)$ 及观测序列概率

P(O|λ) $P(O| \lambda)$

后向算法过程：

输入：隐马尔科夫模型 $\lambda$ , 观测序列O;
输出：观测序列概率 $P(O|\lambda)$

初值
$β T (i) = 1, i = 1, 2, \dots, N$ $\beta_T(i) = 1, i = 1,2,\cdots,N$
递推, 对 $t = T-1,T-2,\cdots,1$
$β t (i) = \sum j = 1 N a i j b j (o t + 1) β t + 1 (j), i = 1, 2, \dots, N$ $\beta_{t}(i) = \sum_{j = 1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j), i = 1,2,\cdots,N$
终止
$P (O | λ) = \sum i = 1 N π i b i (o 1) β 1 (i)$ $P(O|\lambda) = \sum_{i = 1}^{N} \pi_ib_i(o_1)\beta_1(i)$

步骤 1 初始化后向概率，对最终时刻的所有状态 $q_i$ 规定 $\beta_T(i) = 1$ .

步骤 2 是后向概率的递推公式，为了计算在时刻 $t$ 状态为 $q_i$ 的条件下时刻 $t+1$ 之后的观测序列为 $o_{t+1},o_{t+2},\cdots,o_T$ 的后向概率 $\beta_t(i)$ , 只需考虑在时刻 $t+1$ 所有可能的 $N$ 个状态 $q_j$ 的转移概率（即a_{ij}），以及在状态下的观测 $O_{t+1}$ 的观测概(即 $b_j(o_{t+1})$ ),然后考虑状态 $q_j$ 之后的观测序列的后向概率(即 $\beta_{t+1}(j)$ ).

步骤 3 求 $P(O|\lambda)$ 的思路与步骤2中一致，只是初始概率 $\pi_i$ 代替转移概率。

1.3 一些概率与期望值的计算

给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率，记

$γ t (i) = P (i t = q i | O, λ)$ $\gamma_t(i) = P(i_t = q_i | O,\lambda)$
可以通过前向后向概率计算，事实上，
$γ t (i) = P (i t = q i | O, λ) = P ( i t = q i , O | λ ) P ( O | λ )$ $\gamma_t(i) = P(i_t = q_i | O,\lambda) = \frac{P(i_t = q_i,O|\lambda)}{P(O|\lambda)}$
由前向概率 $\alpha_t(i)$ 和后向概率 $\beta_t(i)$ 定义可知：
$α t (i) β t (i) = P (i t = q i, O | λ)$ $\alpha_t(i)\beta_t(i) = P(i_t = q_i,O | \lambda)$
于是得到：
$γ t (i) = α t ( i ) β t ( i ) P ( O | λ ) = α t ( i ) β t ( i ) \sum N j = 1 α t ( j ) β t ( j )$ $\gamma_t(i) = \frac{\alpha_t(i)\beta_t(i)}{P(O|\lambda)} = \frac{\alpha_t(i)\beta_t(i)}{\sum_{j = 1}^{N} \alpha_t(j)\beta_t(j)}$
给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t+1$ 处于状态 $q_j$ 的概率，记

$ξ t (i, j) = P (i t = q i, i i + 1 = q j | O, λ)$ $\xi_t(i,j) = P(i_t = q_i,i_{i+1} = q_j | O,\lambda)$
可以通过前向后向概率计算：
$ξ t (i, j) = P ( i t = q , i t + 1 = q j , O | λ ) P ( O | λ ) = P ( i t = q , i t + 1 = q j , O | λ ) \sum N i = 1 \sum N j = 1 P ( i t = q i , i t + 1 = q j , O | λ )$ $\xi_t(i,j) = \frac{P(i_t = q, i_{t+1} = q_j,O|\lambda)}{P(O|\lambda)} = \frac{P(i_t = q, i_{t+1} = q_j,O|\lambda)}{\sum_{i=1}^{N} \sum_{j=1}^{N} P (i_t = q_i,i_{t+1} = q_j,O|\lambda)}$
而
$P (i t = q i, i t + 1 = q j, O | λ) = α i (i) a i j b j (o t + 1) β t + 1 (j)$ $P(i_t = q_i, i_{t+1} = q_j,O|\lambda) = \alpha_i(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$

所以

ξ t (i, j) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j ) \sum N i = 1 \sum N j = 1 α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j )

$\xi_t(i,j) = \frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}$

一些有用的期望值
- 在观测 $O$ 下状态 $i$ 出现的期望值 $\sum_{i=1}^N \gamma_t(i)$
- 在观测 $O$ 下由状态 $i$ 转移的期望值 $\sum_{t=1}^{T-1} \gamma_t(i)$
- 在观测 $O$ 下由状态 $i$ 转移到状态 $j$ 的期望值 $\sum_{t=1}^{T-1} \xi_t(i,j)$