隐马尔可夫HMM_hmm的组成成分-CSDN博客

本文链接：https://blog.csdn.net/guohui_0907/article/details/96139119

隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。HMM属于生成模型。

1 HMM组成三部分

在这里插入图片描述
HMM可以由下面的三元符号表示：
$\lambda=(A,B,\pi)$

A是状态转移概率矩阵
B是观测概率矩阵
$\pi$ 是初始状态概率向量

将观测变量用 $o_t$ 表示，取值为 $V={v_1,...,v_M}$
将状态变量用 $i_t$ ,取值为 $Q={q_1,...,q_N}$
$A=[a_{ij}],a_{ij}=p(i_{t+1}=q_j|i_t=q_i)\\ B=[b_j(k)], b_j(k)=p(o_t=v_k|i_t=q_j)\\ \pi=(\pi_1,...,\pi_N), \sum_{i=1}^{N}\pi_i=1,\pi_i=p(i_1=q_i)$

2 两个假设

齐次一阶Markov假设：任意时刻的状态只依赖于上一时刻。
$p(i_{t+1}|i_t,i_{t-1},...,i_1,o_t,o_{t-1},...,o_1)=p(i_{t+1}|i_t)$
观测独立假设：当前时刻的观测只依赖于当前时刻的状态。
$p(o_t|i_t,i_{t-1},...,i_1,o_{t-1},...,o_1)=p(o_t|i_t)$

3 HMM要解决的三个问题

概率计算问题(Evaluation) ⇒ $已知\lambda 和O，求p(O|\lambda)$ ⇒ 前向后向
学习问题(Learning) ⇒ $已知观测序列O，估计\lambda_{MLE}=arg\max \limits_{\lambda}p(o|\lambda)$ ⇒ EM
解码问题(Decoding) ⇒ $已知\lambda和观测序列O,求解\hat I=arg\max \limits_{I}p(I|O,\lambda)$ ⇒ viterbi

3.1 Evaluation

$p(O|\lambda)=\sum_Ip(I,O|\lambda)=\sum_Ip(O|I,\lambda) \cdot p(I|\lambda)$
$p(I|\lambda)=p(i_1,...,i_T|\lambda)=p(i_T|i_1,...,i_{T-1},\lambda) \cdot p(i_1,...,i_{T-1}|\lambda)\\ =P(i_T|i_{T-1}) \cdot p(i_1,...,i_{T-1}|\lambda)\\ =P(i_T|i_{T-1}) \cdot P(i_{T-1}|i_{T-2}) \cdot p(i_1,...,i_{T-2}|\lambda)\\ \cdot\cdot\\ =\pi_{i_1}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_t}$
同理可得：
$p(O|I,\lambda)=\prod_{t=1}^{T}b_{i_t}(o_t)$
所以可得：
$p(O|\lambda)=\sum_I\pi_{i_1}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_t}\prod_{t=1}^{T}b_{i_t}(o_t)\\ =\sum_{i_1}\cdot\cdot\cdot\sum_{i_T}\pi_{i_1}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_t}\prod_{t=1}^{T}b_{i_t}(o_t)$
上述公式的复杂度是 $O(TN^{T})$ ,计算量太大，下面使用前向算法计算。

3.1.1 前向算法（Forward algorithm）

在这里插入图片描述
记：
$\alpha_t(i)=p(o_1,...,o_t,i_t=q_i|\lambda)$
$\alpha_T(i)=p(O,i_T=q_i|\lambda)$
$p(O|\lambda)=\sum_{i=1}^{N}P(O, i_T=q_i|\lambda)=\sum_{i=1}^{N}\alpha_T(i)$
求解递推公式：
$\alpha_{t+1}(j)=p(o_1,...,o_{t+1},i_{t+1}=q_j|\lambda)\\ =\sum_{i=1}^{N}p(o_1,...,o_{t+1},i_{t+1}=q_j,i_t=q_i|\lambda)\\ =\sum_{i=1}^{N}p(o_{t+1}|o_1,...,o_t,i_t=q_i,i_{t+1}=q_j,\lambda)\cdot p(o_1,...o_t,i_t=q_i,i_{t+1}=q_j|\lambda)\\ =\sum_{i=1}^{N}p(o_{t+1}|i_{t+1}=q_j)\cdot p(o_1,...o_t,i_t=q_i,i_{t+1}=q_j|\lambda)\\ =\sum_{i=1}^{N}p(o_{t+1}|i_{t+1}=q_j)\cdot p(i_{t+1}=q_j|o_1,...o_t,i_t=q_i,\lambda)\cdot p(o_1,...o_t,i_t=q_i|\lambda)\\ =\sum_{i=1}^{N}p(o_{t+1}|i_{t+1}=q_j)\cdot p(i_{t+1}=q_j|i_t=q_i)\cdot \alpha_t(i)\\ =\sum_{i=1}^{N}b_j(o_{t+1})a_{ij}\alpha_t(i)$
算法的复杂度为 $O(N^{2}T)$ 。
例题见《统计学习方法》10.2

3.1.1 后向算法（Forward algorithm）

待补充

3.2 Learning

解法是Baum Welch算法，也就是EM算法。
EM公式： $\theta^{t+1}=arg \max \limits_{\theta}\int_zlogp(x,z|\theta)\cdot p(z|x,\theta^{t})dz$
$\theta :参数 ⇒ \lambda$ ，将上述公式改为HMM中的符号：
$\lambda^{t+1}=arg \max \limits_{\lambda}\sum_Ilogp(O,I|\lambda)\cdot p(I|O,\lambda^{t})\\ =arg \max \limits_{\lambda}\sum_Ilogp(O,I|\lambda)\cdot p(O,I|\lambda^{t})$
注： $p(I|O,\lambda^{t})=\frac{p(O,I|\lambda^{t})}{p(O|\lambda_t)},因为p(O|\lambda_t)对于\lambda_{t+1}是常数所以可以省略。$
其中 $\lambda^{t}=(\pi^{t},A^{t},B^{t})$
令: $Q(\lambda,\lambda^{t})=\sum_Ilogp(O,I|\lambda)\cdot p(O,I|\lambda^{t})\\ =\sum_I[(log\pi_{i_1})+\sum_{t=2}^{T}loga_{i_{t-1},i_t}+\sum_{t=1}^{N}b_{i_t}(o_t))\cdot p(O,I|\lambda^{t})]$
以求解 $\pi^{t+1}$ 为例:
$\pi^{t+1}=arg \max \limits_{\pi}Q(\lambda,\lambda^{t})\\ =arg \max \limits_{\pi}\sum_I[log\pi_{i_1}\cdot p(O,I|\lambda^{t})]\\ =arg \max \limits_{\pi}\sum_{i_1}\cdot \cdot \cdot \sum_{i_T}[log\pi_{i_1}\cdot p(O,i_1,...,i_T|\lambda^{t})]\\ =arg \max \limits_{\pi}\sum_{i_1}[log\pi_{i_1}p(O,i_1|\lambda^{t})]\\ =arg \max \limits_{\pi}\sum_{i=1}^{N}[log\pi_i \ p(O,i_1=q_i|\lambda^{t})]\\ (s.t. \sum_{i=1}^{N}\pi_i=1)$
因为上述公式是有约束的，定义拉格朗日函数：
$\zeta(\pi, \eta)=\sum_{i=1}^{N}[log\pi_i \ p(O,i_1=q_i|\lambda^{t})]+\eta(\sum_{i=1}^{N}\pi_i-1)$
$\frac{\partial \zeta}{\partial \pi_i}=\frac{1}{\pi_i}p(O,i_1=q_i|\lambda^{t})+\eta=0\\ p(O,i_1=q_i|\lambda^{t})+\pi_i \eta=0\\ \sum_{i=1}^{N}[p(O,i_1=q_i|\lambda^{t})+\pi_i \eta]=0\\ p(O|\lambda^{t})+\eta=0\\ \eta=-p(O|\lambda^{t})$
带入上式中：
$\pi_i^{t+1}=\frac{p(O,i_1=q_i|\lambda^{t})}{p(O|\lambda^{t})}$
所以 $\pi^{t+1}=(\pi_1^{t+1},...,\pi_N^{t+1})$

3.3 Decoding

在这里插入图片描述利用viterbi算法，记：
$\delta_t(i)=\max \limits_{i_1,...,i_{t-1}}p(o_1,...,o_t,i_1,...,i_{i-1},i_t=q_i)$
$\delta_{t+1}(j)=\max \limits_{i_1,...,i_{t}}p(o_1,...,o_{t+1},i_1,...,i_{i},i_{t+1}=q_j)\\ =\max \limits_{1\le i\le N}\delta_t(i)a_{i,j}b_j(o_{t+1})$
$\varphi_{t+1}(j)=arg \max \limits_{1\le i\le N}\delta_t(i)a_{ij}$
维特比算法，通过动态规划的思想，将大的问题逐步分解成小的问题，再通过依次解决每个小问题解决的问题。他的思想是当计算 $t + 1$ 时刻的最优状态时，他们提前保存上一时刻时到达每个状态的最优路径，通过该方法减少计算量。
例题见《统计学习方法》10.3