HMM隐马尔可夫模型的数学推导（二）

篝火者2312

已于 2024-04-29 19:02:28 修改

阅读量64

点赞数

分类专栏：机器学习、人工智能笔记文章标签：概率论机器学习人工智能算法

于 2023-10-13 21:20:03 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/133818422

版权

机器学习、人工智能同时被 2 个专栏收录

57 篇文章 27 订阅

订阅专栏

笔记

56 篇文章 6 订阅

订阅专栏

文章目录

前言

上一篇HMM高斯混合模型参数估计我们对learning问题进行了数学推导，但是由于本身隐马尔可夫模型的复杂性。即便算出了迭代式的公式，等号右边的概率该如何计算仍然式一个问题
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

数学推导

Evaluation：

该问题就是要求出 $P(X|\theta)$ 。

对于该问题，前面我们求Learning问题时，曾求出过
$P(X|\theta)=\sum\limits_{Z}\pi\prod\limits_{i=1}^{T-1}a_{(i,i+1)}\prod\limits_{j=1}^{T}b_{(j,j)}$
这种解法的复杂度太高。因此引入复杂度相对较低的算法（前向算法和后向算法）。

前向算法(递推式算法)

$\begin{equation} \begin{aligned} P(X|\theta)=&P(x_1,x_2,\cdots,x_T|\theta) \\=&\sum\limits_{z_T}P(x_1,x_2,\cdots,x_T,z_T|\theta) \\=&\sum\limits_{i=1}^nP(x_1,x_2,\cdots,x_T,z_T=q_i|\theta) \end{aligned} \end{equation}$

令 $\alpha_{(z_t=q_i)}=P(x_1,x_2,\cdots,x_t,z_t=q_i|\theta)$ 。注意该式子就是上面learning问题时所得。

找出其递推式，对于 $\alpha_{(z_{t+1}=q_i)}$
$\begin{equation} \begin{aligned} \alpha_{(z_{t+1}=q_i)}=&P(x_1,x_2,\cdots,x_t,x_{t+1},z_{t+1}=q_i|\theta) \\=&P(x_{t+1}|x_1,\cdots{x_t,z_{t+1}=q_i,\theta})P(x_1,\cdots{x_t,z_{t+1}=q_i|\theta}) \\=&P(x_{t+1}|z_{t+1}=q_i)P(x_1,\cdots{x_t,z_{t+1}|\theta}) \\=&b_{(z_{t+1}=q_i,x_{t+1})}\sum\limits_{z_t}P(x_1,\cdots{x_t,z_t,z_{t+1}=q_i|\theta}) \\=&b_{(z_{t+1}=q_i,x_{t+1})}\sum\limits_{j=1}^nP(x_1,\cdots{x_t,z_t=q_j,z_{t+1}=q_i|\theta}) \\=&b_{(z_{t+1}=q_i,x_{t+1})}\sum\limits_{j=1}^nP(z_{t+1}=q_i|x_1,x_2,\cdots,x_t,z_t=q_j,\theta)P(x_1,x_2,\cdots,x_t,z_t=q_j|\theta) \\=&b_{(z_{t+1}=q_i,x_{t+1})}\sum\limits_{j=1}^nP(z_{t+1}=q_i|x_1,x_2,\cdots,x_t,z_t=q_j,\theta)P(x_1,x_2,\cdots,x_t,z_t=q_j|\theta) \\=&\sum\limits_{j=1}^nb_{(z_{t+1}=q_i,x_{t+1})}a_{(z_t=q_j,z_{t+1}=q_i)}\alpha_{(z_t=q_j)} \end{aligned} \end{equation}$
请注意区分 $\alpha$ 和 $a$

所以，我们找到了 $\alpha_{(z_t=q_i)}(x_t)$ 和 $\alpha_{(z_{t+1}=q_i)}(x_{t+1})$ 的关系式。然后就可以递归地完成实现上面的 $P(X|\theta)$
$P(X|\theta)=\sum\limits_{i=1}^n\alpha_{(z_T=q_i)}$

后向算法(递推式算法)

$\begin{equation} \begin{aligned} P(X|\theta)=&P(x_1,x_2,\cdots,x_T|\theta) \\=&\sum\limits_{z_1}P(x_1,x_2,\cdots,x_T,z_1|\theta) \\=&\sum\limits_{z_1}P(x_1|x_2,\cdots,x_T,z_1,\theta)P(x_2,\cdots,x_T,z_1|\theta) \\=&\sum\limits_{z_1}b_{(z_1,x_1)}P(x_2,\cdots,x_T,z_1|\theta) \\=&\sum\limits_{z_1}b_{(z_1,x_1)}P(x_2,\cdots,x_T|z_1,\theta)P(z_1|\theta) \\=&\sum\limits_{i=1}^nb_{(z_1=q_i,x_1)}P(x_2,\cdots,x_T|z_1=q_i,\theta)\pi_i \end{aligned} \end{equation}$

令 $\beta_{(z_{t}=q_i)}=P(x_{t+1},\cdots,x_T|z_{t}=q_i,\theta)$ 。

找出其递推式，对于 $\beta_{(z_{t-1}=q_i)}$
$\begin{equation} \begin{aligned} \beta_{(z_{t-1}=q_i)}=&P(x_{t},\cdots,x_T|z_{t-1}=q_i,\theta) \\=&\sum\limits_{z_{t}}P(x_{t},\cdots,x_T,z_{t}|z_{t-1}=q_i,\theta) \\=&\sum\limits_{z_{t}}P(x_{t},\cdots,x_T|z_{t},z_{t-1}=q_i,\theta)P(z_{t}|z_{t-1}=q_i,\theta) \\=&\sum\limits_{z_{t}}P(x_{t},\cdots,x_T|z_{t},z_{t-1}=q_i,\theta)a_{(z_{t-1}=q_i,z_t)} \\=&\sum\limits_{z_{t}}P(x_{t},\cdots,x_T|z_{t},\theta)a_{(z_{t-1}=q_i,z_t)} \\=&\sum\limits_{z_{t}}P(x_t|x_{t+1},\cdots,x_T,z_t,\theta)P(x_{t+1},\cdots,x_T|z_t,\theta)a_{(z_{t-1}=q_i,z_t)} \\=&\sum\limits_{z_{t}}p(x_t|z_t)P(x_{t+1},\cdots,x_T|z_t,\theta)a_{(z_{t-1}=q_i,z_t)} \\=&\sum\limits_{j=1}^nb_{(z_t=q_j,x_t)}\beta_{(z_{t}=q_j)}a_{(z_{t-1}=q_i,z_t=q_j)} \end{aligned} \end{equation}$
这仍然是一个递归式算法。和前向算法一个道理。所以
$P(X|\theta)=\sum\limits_{i=1}^nb_{(z_1=q_i,x_1)}\beta_{(z_1=q_i)}\pi_i$

接下来就找出learning问题中如何对概率求解
$\begin{equation} \begin{aligned} &P(z_t=q_i,X|\theta^t) \\=&P(z_t=q_i,x_1,x_2,\cdots,x_T|\theta^t) \\=&P(x_{t+1},\cdots x_T|z_t=q_i,x_1,\cdots,x_t,\theta^t)P(z_t=q_i,x_1,\cdots,x_t|\theta^t) \\=&P(x_{t+1},\cdots x_T|z_t=q_i,\theta^t)P(z_t=q_i,x_1,\cdots,x_t|\theta^t) \\=&\beta_{(z_t=q_i)}\alpha_{(z_t=q_i)} \end{aligned} \end{equation}$
从该问题可得到 $P(z_1=q_i,X|\theta^t)$ 的求解。那么还剩下 $\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)$
$\begin{equation} \begin{aligned} &\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t) \\=&P(x_1,x_2,\cdots,x_T,z_t=q_i,z_{t+1}=q_j|\theta^t) \\=&P(z_{t+1}=q_j,x_{t+1},\cdots,x_T|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)P(x_1,x_2,\cdots,x_t,z_t=q_i|\theta^t) \\=&P(z_{t+1}=q_j,x_{t+1},\cdots,x_T|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)\alpha_{(z_t=q_i)} \\=&P(x_{t+2},\cdots,x_T|z_{t+1}={q_j},x_1,x_2,\cdots,x_{t+1},z_t=q_i,\theta^t)P(x_{t+1},z_{t+1}={q_j}|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)\alpha_{(z_t=q_i)} \\=&P(x_{t+2},\cdots,x_T|z_{t+1}=q_i,\theta^t)P(x_{t+1},z_{t+1}={q_j}|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)\alpha_{(z_t=q_i)} \\=&\beta_{(z_{t+1}=q_j)}P(x_{t+1},z_{t+1}={q_j}|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)\alpha_{(z_t=q_i)} \\=&\beta_{(z_{t+1}=q_j)}P(x_{t+1}|z_{t+1}=q_j,x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)P(z_{t=1}=q_j|x_1,x_2,\cdots,x_t,z_t=q_i,\theta^t)\alpha_{(z_t=q_i)} \\=&\beta_{(z_{t+1}=q_j)}b_{(z_{t+1}=q_j,x_{t+1})}a_{(z_t=q_i,z_{t+1}=q_j)}\alpha_{(z_t=q_i)} \end{aligned} \end{equation}$
所以，最终在Learning中所得结果应当是
$\pi_i=\frac{\beta_{(z_1=q_i)}\alpha_{(z_1=q_i)}}{P(X|\theta^t)}; \\a_{(z=q_i,z=q_j)}=\frac{\sum\limits_{t=1}^{T-1}\beta_{(z_{t+1}=q_j)}b_{(z_{t+1}=q_j,x_{t+1})}a_{(z_t=q_i,z_{t+1}=q_j)}\alpha_{(z_t=q_i)}}{\sum\limits_{t=1}^{T-1}\beta_{(z_t=q_i)}\alpha_{(z_t=q_i)}}; \\b_{(z=q_i,x=v_j)}=\frac{\sum\limits_{t=1}^{T-1}\beta_{(z_t=q_i)}\alpha_{(z_t=q_i)}I(x_t=v_j)}{\sum\limits_{t=1}^T\beta_{(z_t=q_i)}\alpha_{(z_t=q_i)}}$

Decoding：

模型训练完成之后，我们求出 $P(Z|X,\theta)$ 以实现预测

即
$\hat Z=\max\limits_{Z}P(Z|X,\theta)$
传统方式方法的复杂度及其之高。故引入维特比算法

维特比算法(递推式算法)

所谓维特比算法。实际上就是采用了动态规划的思想。对于原式
$\begin{equation} \begin{aligned} \hat Z=&\max\limits_{Z}P(Z|X,\theta) \\=&\max_Z\frac{P(Z,X|\theta)}{P(X|\theta)} \\=&\max_ZP(Z,X|\theta) \end{aligned} \end{equation}$
设
$\xi_{z_t}(q_i)=\max_{z_1,z_2,\cdots,z_{t-1}} P(z_1,z_2,\cdots,z_t=q_i,x_1,x_2,\cdots,x_t|\theta)$
其中 $\xi_{z_t}(q_i)$ 表示处于第t个隐序列，状态为 $q_i$ 的能够使得概率最大的概率。

找出其递推式，对于 $\xi_{z_{t+1}}(q_i)$
$\begin{equation} \begin{aligned} \xi_{z_{t+1}}(q_i)=&\max_{j\in\{1,2,\cdots,N\}}\xi_{z_t}(q_j)a_{(z_t=q_j,z_{t=1}=q_i)}b_{(z_{t=1}=q_i,x_{t+1})} \end{aligned} \end{equation}$
可理解寻找前一个使后面能够最大的前一个值。