HMM隐马尔可夫模型解决的问题及推导过程

最新推荐文章于 2021-05-12 17:00:38 发布

june_francis

最新推荐文章于 2021-05-12 17:00:38 发布

阅读量528

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/june_young_fan/article/details/115113272

版权

文章目录

前言

首先HMM解决的问题是基于序列的。
111

其中：

状态序列 $I=i_1,i_2,...,i_T$ ，满足 $i_T \in Q$ ， $Q$ 是状态序列的可能取值集合 $Q=\{q_1,q_2,...,q_N\}$ ；
观测序列 $O=o_1,o_2,...,o_T$ ，满足 $o_T \in V$ ， $V$ 是观测序列的可能取值集合 $V=\{v_1,v_2,...,v_M\}$ 。

要点：

一、模型参数及意义：

一个HMM模型，可以由 隐藏状态初始概率分布 $\pi$ 、状态转移概率矩阵 $A$ 和观测状态概率矩阵 $B$ 决定。

可由如下三元组表示：
$\lambda = (\pi,\;A,\;B)$
其中：

$\pi$ ：表示初始概率分布；
$A$ ：转移矩阵 $a_{ij}]$ ， $a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$ ，表示隐藏状态从 $t$ 时刻的 $q_i$ 转变为 $t + 1$ 时刻的 $q_j$ 时的概率；
$B$ ：发射矩阵 $b_j(k)]$ ， $b_j(k)=P(o_t=v_k|i_t=q_j)$ ，表示时刻 $t$ 时的隐藏状态为 $q_j$ 时产生观测值为 $v_k$ 的概率。

二、两个假设：

① 齐次Markov假设：任意时刻的隐藏状态只依赖于它前一时刻的隐藏状态。

即：
$P(i_{t+1}|i_1,i_2,...,i_t,\;o_1,o_2,...,o_t)=P(i_{t+1}|i_t)$
② 观测独立性假设：任意时刻的观测状态只依赖于当前时刻的隐藏状态。

即：
$P(o_t|i_1,i_2,...,i_t,\;o_1,o_2,...,o_t)=P(o_t|i_t)$

三、三个问题：

HMM解决的三个经典的问题：

① Evaluation评估问题：已知HMM模型 $\lambda = (\pi,\;A,\;B)$ ，求给定观测序列 $O$ 出现的可能性大小 $P(O|\lambda)$ ，可使用（Forward-Backword）前向后向算法进行求解；

② Decoding解码问题：已知HMM模型 $\lambda = (\pi,\;A,\;B)$ 和观测序列 $O$ ，求解隐藏状态序列 $\hat{I}$ ，使得当前条件下出现该隐藏状态序列的可能性最大，即：
$\hat{I}=\underbrace{arg\;max}_I\;P(I|O,\lambda)$
可使用（Viterbi）维特比算法进行求解；

③ Learning学习问题：已知观测序列 $O$ ，估计模型 $\lambda = (\pi,\;A,\;B)$ 的参数，使得产生该观测序列的可能性最大，即：
$\lambda_{MLE} = \underbrace{arg\;max}_{\lambda}\;P(O|\lambda)$
可使用（Baum-Welch）鲍姆-韦尔奇算法进行求解。

四、三个问题的对应求解过程：

① Evaluation评估问题

已知HMM模型 $\lambda = (\pi,\;A,\;B)$ ，求给定观测序列 $O$ 出现的可能性大小 $P(O|\lambda)$ ：

暴力求解法：
$P(O|\lambda) = \sum_I P(I,O|\lambda) = \sum_I P(O|I,\lambda)\cdot P(I|\lambda)$
而：
$P(I|\lambda)=P(i_1,i_2,...,i_T|\lambda)=P(i_T|i_1,i_2,...,\lambda)\cdot P(i_1,i_2,...,i_{T-1}|\lambda)$

$P(i_T|i_{T-1})\cdot P(i_1,i_2,...,i_{T-1}|\lambda)$

$a_{T-1,T}\cdot P(i_1,i_2,...,i_{T-1}|\lambda)$

$=a_{T-1,T}\cdot a_{T-2,T-1}\cdot P(i_1,i_2,...,i_{T-2}|\lambda)$

$\pi(a_{i_1})\cdot \prod_{t=2}^T a_{i_{t-1},i_t}$

$P(O|I,\lambda)=\prod_{t=1}^T b_{i_t}(o_t)$

所以：
$P(O|\lambda)=\sum_I \pi(a_{i_1})\cdot \prod_{t=2}^T a_{i_{t-1},i_t} \prod_{t=1}^T b_{i_t}(o_t)$

$\overbrace{\sum_{i_1} \sum_{i_2} \cdots \sum_{i_T}}^{O(N^T)} \pi(a_{i_1})\cdot \prod_{t=2}^T a_{i_{t-1},i_t} \prod_{t=1}^T b_{i_t}(o_t)$

看的出来时间复杂度很高，为 $O(TN^T)$ 。
（Forword）前向算法：

我们将 $t$ 时刻的观测序列 $O=o_1,o_2,...,o_t$ 与隐藏状态 $i_t$ 的联合概率记为 $\alpha_t(i)$ ：

即：
$\alpha_t(i) = P(o_1,o_2,...,o_t,\;i_t=q_i|\lambda)$

$\alpha_T(i) = P(O,\;i_t=q_i|\lambda)$

而：
$P(O|\lambda)= \sum_{i=1}^N P(O,\;i_t=q_i|\lambda)=\sum_{i=1}^N \alpha_T(i)$
所以，知道了 $\alpha_T(i)$ 的递推公式， $P(O|\lambda)$ 便可求解得出。
$\alpha_{t+1}(j)=P(o_1,o_2,...,o_{t+1},\;i_{t+1}=q_j|\lambda)$

$=\sum_{i=1}^N P(o_1,o_2,...,o_{t+1},\;i_{t+1}=q_j,\;i_t=q_i|\lambda)$

$=P(o_{t+1}|o_1,o_2,...,o_t,\;i_t=q_i,\;i_{t+1}=q_j,\;\lambda)\cdot P(o_1,o_2,...,o_t,\;i_{t+1}=q_j,\;i_t=q_i|\lambda)$

$=\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(o_1,o_2,...,o_t,\;i_{t+1}=q_j,\;i_t=q_i|\lambda)$

$=\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j|o_1,o_2,...,o_t,\;i_t=q_i,\;\lambda)\cdot P(o_1,o_2,...,o_t,\;i_t=q_i|\lambda)$

$=\sum_{i=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot P(i_{t+1}=q_j|i_t=q_i)\cdot P(o_1,o_2,...,o_t,\;i_t=q_i|\lambda)$

$=\sum_{i=1}^N b_j(o_{t+1})\cdot a_{ij}\cdot \alpha_t(i)$
（Backword）后向算法：

我们把在时刻 $t$ 隐藏状态为 $q_i$ 时产生观测序列 $O=o_{t+1},o_{t+2},...,o_T$ 的条件概率记为 $\beta_t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\;\lambda)$ 。

那么根据定义可知： $\beta_1(i)=P(o_2,o_3,...,o_T|i_1=q_i,\;\lambda)$ 。

此时：

$P(O|\lambda)=P(o_1,o_2,...,o_T|\lambda)$

$\sum_{i=1}^N P(o_1,o_2,...,o_T,\;i_1=q_i|\lambda)$

$=\sum_{i=1}^N P(o_1,o_2,...,o_T|i_1=q_i,\;\lambda)\cdot P(i_1=q_i|\lambda)$

$\sum_{i=1}^N P(o_1|o_2,...,o_T,\;i_1=q_i,\;\lambda)\cdot P(o_2,...,o_T|i_1=q_i,\;\lambda)\cdot \pi_i$

$=\sum_{i=1}^N P(o_1|i_1=q_i)\cdot \beta_1(i) \cdot \pi_i$

$\sum_{i=1}^N \pi_i b_i(o_1)\beta_1(i)$

所以求出了 $\beta_1(i)$ ，则相应的 $P(O|\lambda)$ 也就求出来了。

而：
$\beta_t(i) =P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\;\lambda)$

$\sum_{j=1}^N P(o_{t+1},o_{t+2},...,o_T,\;i_{t+1}=q_j|i_t=q_i,\;\lambda)$

$=\sum_{j=1}^N P(o_{t+1},o_{t+2},...,o_T|i_{t+1}=q_j,\;i_t=q_i,\;\lambda)\cdot P(i_{t+1}=q_j|o_{t+1},o_{t+2},...,o_T,\;i_t=q_i,\;\lambda)$

$=\sum_{j=1}^N P(o_{t+1},o_{t+2},...,o_T|i_{t+1}=q_j)\cdot a_{ij}$

$=\sum_{j=1}^N P(o_{t+1}|o_{t+2},...,o_T,\;i_{t+1}=q_j)\cdot P(o_{t+2},...,o_T|i_{t+1}=q_j)\cdot a_{ij}$

$\sum_{j=1}^N P(o_{t+1}|i_{t+1}=q_j)\cdot \beta_{t+1}(j)\cdot a_{ij}$

$\sum_{j=1}^N b_j(o_{t+1})a_{ij}\beta_{t+1}(j)$

至此，我们就可以根据 $\beta_T(i)$ 递推出 $\beta_{T-1}(i),...,\beta_1(i)$ 。

② Decoding解码问题：

已知HMM模型 $\lambda = (\pi,\;A,\;B)$ 和观测序列 $O$ ，求解隐藏状态序列 $\hat{I}$ ，使得当前条件下出现该隐藏状态序列的可能性最大。
555

使用（Viterbi）维特比算法进行求解：

本质上就是基于动态规划求解最短路径（最大概率）的问题。

这里我们将在时刻 $t$ 隐藏状态为 $i$ 的所有可能的状态转移路径 $i_1,i_2,...i_t$ 中的概率最大值记为 $\delta_t(i)$ ，则有：
$\delta_t(i) = \underbrace{max}_{i_1,i_2,...,i_{t-1}} P(i_t=i,\;i_1,i_2,...,i_{t-1},\;o_1,o_2,...,o_{t}|\lambda),\;i=1,2,...,N$
由 $\delta_t(i)$ 的定义可以得到 $\delta$ 的递推表达式：
$\delta_{t+1}(j)=\underbrace{max}_{i_1,i_2,...,i_{t}} P(i_{t+1}=i,\;i_1,i_2,...,i_{t},\;o_1,o_2,...,o_{t+1}|\lambda)$

$=\underbrace{max}_{1 \le i \le N} \delta_t(i)a_{ij}b_j(o_{t+1})$

但是 $\delta_{t+1}(j)$ 表示的是最大的概率值，而不是状态转移路径，所以我们要在每次获取到最大概率值之后标记出此时的状态转移路径，即隐藏状态 $i$ 的取值。

我们定义在时刻 $t + 1$ 隐藏状态为 $j$ 的所有单个状态转移路径 $i_1,i_2,...,i_{t-1},i_t,j_{t+1})$ 中概率最大的转移路径中时刻为 $t$ 的节点的隐藏状态为 $\psi_{t+1}(j)$ 。

那么：
$\psi_{t+1}(j) = \underbrace{arg\;max}_{1\le i\le N}\;\delta_t(i)a_{ij}$
现在，我们可以根据 $\delta_{t+1}(i)$ 递推得到 $\delta_{t}(i),\delta_{t-1}(i),...,\delta_{1}(j)$ ，那么根据上式，我们可以得到使得 $\delta_{t}(i)$ 最大的状态转移路径 $\hat{I} =\psi_{1}(i),\psi_{2}(i),...,\psi_{t}(i)$ 。

③ Learning学习问题：

已知观测序列 $O$ ，估计模型 $\lambda = (\pi,\;A,\;B)$ 的参数，使得产生该观测序列的可能性最大。

这样的学习问题我们可以使用（Baum-Welch）鲍姆-韦尔奇算法进行求解。

首先我们给出算法的求解公式：
$\theta^{(t+1)}=\underbrace{arg\;max}_{\theta} \int_{Z} log\;P(X,Z|Q)\cdot P(Z|X,\theta^{(t)})dZ$
其中：

$X$ 表示观测值，等价于前面的观测序列 $O$ ;
$Z$ 表示隐变量，等价于前面的隐藏状态序列 $I$ （离散的）；
$\theta$ 表示模型参数，等价于前面的 $\lambda$ 。

那么上式可以改写为：
$\lambda^{(t+1)}=\underbrace{arg\;max}_{\lambda}\;\sum_I log\;P(O,I|\lambda)\cdot P(I|O,\;\lambda^{(t)})$

$=\lambda^{(t+1)}=\underbrace{arg\;max}_{\lambda}\;\sum_I log\;P(O,I|\lambda)\cdot \frac{P(O,I|\lambda^{(t)})}{P(O|\lambda^{(t)})}$

上式中分母 $P(O|\lambda^{(t)})$ 是已知的常量，对结果不会产生影响，这里我们可以省略掉，即：
$=\lambda^{(t+1)}=\underbrace{arg\;max}_{\lambda}\;\sum_I log\;P(O,I|\lambda)\cdot P(O,I|\lambda^{(t)})$

现在是要找到 $\lambda^{(t+1)}$ 和 $\lambda^{(t)}$ 之间的关系式进行迭代更新， $\lambda^{(t)}$ 可以这样表示：
$\lambda^{(t)}=(\pi^{(t)},\; A^{(t)},\; B^{(t)})$
由于模型的三个参数的迭代过程都是使用类似的思想，而且关于 $A$ 和 $B$ 的推导相对比较麻烦，所以这里只演示 $\pi$ 的推导求解过程：

可令：
$Q(\lambda,\lambda^{(t)})=\sum_I log\;P(O,I|\lambda)\cdot P(O,I|\lambda^{(t)})$

$=\sum_I \big[log\;\pi(a_{i_1})\cdot \prod_{t=2}^T a_{i_{t-1},i_t}\cdot \prod_{t=1}^T b_{i_t}(o_t) \cdot P(O,I|\lambda^{(t)})\big]$

$=\sum_I \big[\big(log\;\pi(a_{i_1}) + \sum_{t=2}^T log\;a_{i_{t-1},i_t} + \sum_{t=1}^T log\;b_{i_t}(o_t)\big) \cdot P(O,I|\lambda^{(t)})\big]$

由于小括号中的第二、三项与 $\pi$ 没有关系，所以上式可以进一步简化：
$\pi^{(t+1)}=\underbrace{arg\;max}_{\pi}\;Q(\lambda,\lambda^{(t)})$

$=\underbrace{arg\;max}_{\pi}\;\sum_I \big[log\;\pi_{i_1}\cdot P(O,I|\lambda^{(t)})\big]$

$=\underbrace{arg\;max}_{\pi}\;\sum_{i_1} \cdots \sum_{i_T} \big[log\;\pi_{i_1}\cdot P(O,\;i_1,i_2,...,i_T|\lambda^{(t)})\big]$

我们发现前面的连续积分从 $i_2$ 到 $i_T$ 与 $log\;\pi_{i_1}$ 无关，与第二项连续积分的结果是一个边缘概率，即：
$=\underbrace{arg\;max}_{\pi}\;\sum_{i_1} \big[log\;\pi_{i_1}\cdot P(O,\;i_1|\lambda^{(t)})\big]$
到这里则变成了有约束条件下的求极值问题，由前面的条件可知，初始概率分布满足如下条件：
$\sum_{i=1}^N \pi_i = 1$
此时，我们使用拉格朗日乘子法来求解它，引入 $\eta \ge 0$ 使得：
$L(\pi, \eta) = \sum_{i=1}^N log\;\pi_i \cdot P(O,\;i_1=q_i|\lambda^{(t)}) + \eta \big(\sum_{i=1}^N \pi_i -1\big)$
对拉格朗日函数求关于 $\pi_i$ 的偏导，并令其为0：
$\frac{\partial L(\pi, \eta)}{\partial \pi_i} = \frac{1}{\pi_i}\cdot P(O,\;i_1=q_i|\lambda^{(t)}) + \eta = 0 \quad \cdots \text{①}$

$\Rightarrow \pi_i = -\frac{P(O,\;i_1=q_i|\lambda^{(t)})}{\eta} \quad \cdots \text{②}$

我们对式①等号两边的式子对 $i$ 在 $1, 2, . . ., N$ 上求和，即得：
$\sum_{i=1}^N \big[\frac{1}{\pi_i}\cdot P(O,\;i_1=q_i|\lambda^{(t)}) + \eta\big] = 0$

$\Rightarrow \sum_{i=1}^N \big[P(O,\;i_1=q_i|\lambda^{(t)}) + \pi_i \eta\big] = 0$

$\Rightarrow P(O|\lambda^{(t)}) + \eta = 0$

$\Rightarrow \eta = -P(O|\lambda^{(t)}) \quad \cdots \text{③}$

将式③代入到式②中，可得：
$\pi_i^{(t+1)} = \frac{P(O,\;i_1=q_i|\lambda^{(t)})}{P(O|\lambda^{(t)})}$
这样我们就得到了 $t + 1$ 时刻的参数 $\pi_i$ 由时刻 $t$ 的模型参数更新的表达式。

june_francis

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HMM隐马尔可夫模型解决的问题及推导过程

前言首先HMM解决的问题是基于序列的。其中：状态序列 I=i1,i2,...,iTI=i_1,i_2,...,i_TI=i1,i2,...,iT ，满足 iT∈Qi_T \in QiT∈Q ，QQQ 是状态序列的可能取值集合 Q={q1,q2,...,qN}Q=\{q_1,q_2,...,q_N\}Q={q1,q2,...,qN} ；观测序列 O=o1,o2,...,oTO=o_1,o_2,...,o_TO=o1,o2,...,oT ，满足 oT∈Vo_T \in VoT∈
复制链接

扫一扫