HMM(1)前向后向算法推导

jrh1223

已于 2022-11-21 16:29:06 修改

阅读量2k

点赞数 10

文章标签：人工智能隐马尔可夫模型算法

于 2020-01-19 14:30:32 首次发布

本文链接：https://blog.csdn.net/jrh1223/article/details/104019744

版权

HMM（1）前向后向算法推导

看了很多博客的HMM模型，自己做一个总结加固知识点的记忆。

1 HMM基础知识点

对于HMM模型，其主要是处理序列问题，并且该问题包括一个表象的观测序列和一个可能无法直接观察到的隐藏序列（或者叫状态序列），且这两个序列都是包括 $T$ 个时刻的序列。观测序列的数学表达如式（1-1），状态序列的数学表达如式（1-2）：
$O=\lbrace o_1,o_2,...,o_T \rbrace \tag{1-1}$ $Q=\lbrace q_1,q_2,...,q_T \rbrace \tag{1-2}$
对于观测序列的每一个 $o_t$ 可以有 $N$ 个不同的观测值，对于状态序列的每一个 $q_t$ 可以有 $M$ 个不同的状态值，具体的数学表达如下：
$o_t=\lbrace v_1,v_2,...,v_N\rbrace\tag{1-3}$ $q_t=\lbrace \sigma_1,\sigma_2,...,\sigma_M\rbrace\tag{1-4}$

HMM中有两个重要的假设：

齐次马尔科夫链假设。也就是说任意时刻的隐藏状态都只和前一时刻的隐藏状态有关，如式（1-5）。因此产生了一个概念，就是隐状态转移概率， $a_{ij}$ ，表示隐藏状态从 $t$ 时刻的状态 $i$ 转换为 $t + 1$ 时刻的状态 $j$ 的概率。每一个隐状态转移到另一个状态的概率集合可以通过状态转移矩阵来表示，如（1-6）。
$P(q_{t+1}|q_t,q_{t-1},q_{t-2},...,q_{1})=P(q_t+1|q_t)\tag{1-5}$ $A=[a_{ij}]_{M\times M} ;i\in\{1,2,...,M\},j\in\{1,2,...,M\}\tag{1-6}$
观测独立性假设。也就是说任意时刻的观测状态只与当前时刻的隐藏状态有关，如式（1-7）。因此产生了一个概念，就是发射概率 $b_j(k)$ ，表示在时刻 $t$ 时隐藏状态 $q_t$ 是 $i_j$ 时，观测结果 $o_t$ 是 $v_k$ 的概率。每一个有状态到每一个不同的观测结果的发射概率的集合可以通过发射矩阵来表示，如（1-8）。
$P(o_t|q_t,q_{t-1},...,q_1)=P(o_t|q_t)\tag{1-7}$ $B=[b_j(k)]_{M\times N};j\in\{1,2,...,M\},k\in\{1,2,...,N\}\tag{1-8}$

除了上面的隐状态转移矩阵和发射矩阵，还需要一个在 $t = 1$ 时每一个隐藏状态的初始分布 $\Pi$ ，如（1-9）所示。
$\Pi=[\pi(i)]_N;\pi(i)=P(q_1=i);i\in\{1,2,...,M\}\tag{1-9}$
因此，一个HMM模型可以通过一个三元组 $\lambda(A,B,\Pi)$ 来表示。

2 前向后向算法

前向和后向算法都是为了解决HMM中的第一个问题，即在观测序列 $O$ 和模型参数 $\lambda$ 都已知，状态序列 $Q$ 未知的条件下求产生这样的观测序列的概率是多少，也就是求 $P(O|\lambda)=\sum_QP(O,Q|\lambda)$ 。由于通过暴力搜索来计算每一种隐状态序列产生观测序列概率的复杂度很高， $\Theta(TN^T)$ ，所以需要通过前向后向算法来简化计算的复杂度， $\Theta(TN^2)$ 。

2-1 前向算法

前向算法的推导可以通过动态规划的思想逐步求解出来，首先我们定义前向概率，即观测序列是 $o_1,o_2,...,o_t$ ,且 $t$ 时刻的隐状态是 $\sigma_i$ 时的概率，数学表达如式（2-1）：
$\alpha_t(i)=P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda);i\in\{1,2,...,M\}\tag{2-1}$
前向算法推导过程如下所示：
$\begin{aligned} \alpha_{t+1}(i) & =P(o_1,o_2,...,o_t,o_{t+1},q_{t+1}=\sigma_j|\lambda) \\ & = P(o_1,o_2,...,o_t,o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)\\ & = P(o_1,o_2,...,o_t|q_{t+1}=\sigma_j,\lambda)P(o_{t+1}|q_{t+1},\lambda)P(q_{t+1}=\sigma_j|\lambda)\\ & = P(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1},\lambda)\\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t|q_t=\sigma_i,\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\left[\sum_i^M\alpha_t(i)a_{ij}\right]b_j(o_{t+1}) \\ & =\left[\sum_i^M\alpha_t(i)\times状态转移概率\right]\times发射概率 \end{aligned}$
因此，问题一的最终结果是 $P(O|\lambda)=\sum_i^M\alpha_T(i)$ ,其中 $\alpha_T(i)$ 可以通过以上的公式推导逐步的计算出来。

2-2 后向算法

后向算法的推导和前向算法的思想一样，都是通过动态规划的思想逐步推导出最终结果。和前向概率一样，我们需要先定义一个后向概率如式（2-2）。
$\beta_{t+1}(j)=P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)\tag{2-2}$
后向算法推导过程如下所示：
$\begin{aligned} \beta_t(i) &= P(o_{t+1},o_{t+2},...,o_T|q_{t}=\sigma_i,\lambda) \\ & =\sum_{j}^MP(o_{t+1},o_{t+2},...,o_T,q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,q_{t}=\sigma_i,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda) \\ & =\sum_j^M\beta_{t+1}(j)a_{ij}b_j(o_{t+1}) \\ & =\sum_j^M\beta_{t+1}(j)\times状态转移概率\times发射概率 \end{aligned}$
因此，问题一的最终结果是 $P(O|\lambda)=\sum_i\pi(i)b_i(o_1)\beta_1(i)$ ,其中 $\beta_1(i)$ 可以通过以上的公式推导逐步的计算出来。

2-3 衍生公式推导

根据前向和后向算法我们可以推导出其他的公式。如式（2-3）所示，是在模型参数 $\lambda$ 和观测序列 $O$ 都已知的情况下， $t$ 时刻的隐状态是 $\sigma_i$ 的概率。
$\begin{aligned} \gamma_t(i) & =P(q_t=\sigma_i|O,\lambda) \\ & =\frac{P(O,q_t=\sigma_i|\lambda)}{P(O|\lambda)} \tag{2-3}\\[4ex] & = \frac{P(o_1,o_2,...,o_T,q_t=\sigma_i|\lambda)}{\sum_j^MP(o_1,o_2,...,o_T,q_t=\sigma_j|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_T|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)}{\sum_j^MP(o_1,o_2,...,o_T|q_t=\sigma_j,\lambda)P(q_t=\sigma_j|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(o_{t+1},o_{t+2},...,o_T|q_t=\sigma_i,\lambda)}{\sum_j^MP(o_1,o_2,...,o_t,q_t=\sigma_j|\lambda)P(o_{t+1},o_{t+2},...,o_T|q_t=\sigma_j,\lambda)} \\[4ex] & =\frac{\alpha_t(i)\beta_t(i)}{\sum_j^M\alpha_t(j)\beta_t(j)} \end{aligned}$
如式(2-4)所示，在模型参数 $\lambda$ 和观测序列 $O$ 都已知的情况下， $t$ 时刻的隐状态是 $\sigma_i$ ， $t + 1$ 时刻的隐状态是 $\sigma_j$ 的概率。
$\begin{aligned} \xi_t(i,j) & =P(q_t=\sigma_i,q_{t+1}=\sigma_j|O,\lambda) \\ & =\frac{P(q_t=\sigma_i,q_{t+1}=\sigma_j,O|\lambda)}{P(O|\lambda)} \\[2ex] & =\frac{P(o_1,o_2,...,o_T,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_T,q_t=\sigma_i|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \tag{2-4}\\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|q_{t+1}=\sigma_j,\lambda)P(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_s^M\sum_r^M\alpha_t(s)a_{sr}b_r(o_{t+1})\beta_{t+1}(r)} \end{aligned}$