10_隐马尔科夫模型HMM2_统计学习方法

最新推荐文章于 2020-07-21 09:31:52 发布

Hayden112

最新推荐文章于 2020-07-21 09:31:52 发布

阅读量234

点赞数

分类专栏：统计学习方法文章标签： HMM 非监督学习维特比算法 EM

本文链接：https://blog.csdn.net/weixin_42432468/article/details/99344184

版权

统计学习方法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

四、学习算法
- 1、监督学习方法
- 2、非监督学习方法（Baum-Welch算法）
五、预测算法

隐马尔科夫模型内容较多，方便阅读，分成2个部分
上接：10_隐马尔科夫模型HMM1_统计学习方法

四、学习算法

估计模型 $\lambda = (A,B,\Pi)$ 参数。

隐马尔科夫模型的学习，根据训练数据是包含观测序列和对应的状态序列还是只有观测序列，可以分为监督学习和非监督学习。

1、监督学习方法

假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 $\{(O_1,I_1),(O_2,I_2),\cdots,(O_N,I_N)\}$ ，那么可以用极大似然估计法来估计隐马尔科夫模型的参数。具体方法如下。

（1）转移概率 $a_{xy}$ 的估计
设样本中时刻 $t\space$ 处于状态 $x\space$ 时刻 $t + 1$ 转移到状态 $y$ 的频数为 $A_{xy}$ ,那么状态转移概率 $a_{xy}$ 的估计是
$\hat a_{xy} = \dfrac{A_{xy}}{\sum_{y=1}^N A_{xy}},\space x = 1,2,\cdots,N;y = 1,2,\cdots,N \tag{30}$

（2）观测概率 $b_{yk}$ 的估计
设样本中状态为 $y$ 并观测为 $k$ 的频数是 $B_{yk}$ ，那么状态为 $y$ 观测为 $k$ 的概率 $b_{yk}$ 的估计是
$\hat b_{yk} = \dfrac{B_{yk}}{\sum_{k=1}^M B_{yk}},\space y=1,2,\cdots,N;k=1,2,\cdots,M \tag{31}$

（3）初始状态概率 $\pi_{x}$ 的估计 $\hat \pi_{x}$ 为 $S$ 个样本中初始状态为 $q_x$ 的频数

由于监督学习需要使用训练数据，而人工标注训练数据往往代价很高，有时就会利用非监督学习的方法。

2、非监督学习方法（Baum-Welch算法）

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\{O_1,O_2,\cdots,O_S\}$ 而没有对应的状态序列，目标是学习隐马尔科夫模型 $\lambda = (A,B,\Pi)$ 的参数。我们将观测序列数据看作观测数据 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔科夫模型事实上是一个含有隐变量的概率模型
$P(O|\lambda) = \sum_{I}P(O|I,\lambda)P(I|\lambda) \tag{32}$
它的参数学习可以由EM算法实现。

（1）确定完全数据的对数似然函数

所有观测数据写成 $(o_1,o_2,\cdots,o_T)$ ，所有隐数据写成 $(i_1,i_2,\cdots,i_T)$ ，完全数据是 $(o_1.o_2,\cdots,o_T,i_1,i_2,\cdots,i_T)$ 。完全数据的对数似然函数是 $lnP(O,I|\lambda)$ 。
Q函数推导。
（2）EM算法的E步：极大化 $Q$ 函数 $Q(\lambda,\bar\lambda)$
$\begin{aligned}arg\;\max_{\lambda} Q(\lambda,\bar\lambda) & = \sum_{I}P(I|O,\bar\lambda)lnP(O,I|\lambda)\\ & = \sum_{I}\dfrac{P(O,I|\bar\lambda)}{P(O|\bar\lambda)}lnP(O,I|\lambda) \\ & = \dfrac{1}{P(O|\bar\lambda)}\sum_{I}P(O,I|\bar\lambda)lnP(O,I|\lambda) \\ & = arg\;\max_{\lambda} \sum_{I}P(O,I|\bar\lambda)lnP(O,I|\lambda) \tag{33} \end{aligned}$
其中 $\bar\lambda$ 是隐马尔科夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔科夫模型参数。

由式（13）有
$P(O|\lambda) = \sum_{I} P(O,I|\lambda) = \sum_{I} P(O|I,\lambda)P(I|\lambda)= \sum_{i_1,i_2,\cdots,i_T} \pi_{i_1}b_{i_1}(o_1) a_{i_1 i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}\space\space i_{T}}b_{i_T}(o_T)$
于是函数 $Q(\lambda,\bar\lambda)$ 可以写成：
$\begin{aligned} Q(\lambda,\bar\lambda) = & \sum_{I}P(O,I|\bar\lambda)ln\pi_{i_1} \\ & +\sum_{I}P(O,I|\bar\lambda)\sum_{t=1}^{T-1}ln a_{i_t\,i_{t+1}}\\ & +\sum_{I}P(O,I|\bar\lambda)\sum_{t=1}^{T}ln b_{i_t}(o_t)\tag{34} \end{aligned}$
式中求和是对所有训练数据的序列总长度 $T$ 进行的。

（3）EM算法的M步：极大化 $Q$ 函数 $Q(\lambda,\bar\lambda)$ 求模型参数 $A,B,\Pi$

由于要极大化的参数在式（34）中单独地出现在3个项中，所以只需对各项分别极大化，式（34）中三项分别命名为 $\Pi$ 式、 $A$ 式和 $B$ 式。

1）求 $\Pi$ 式即式（34）的第1项，可以写成：
$\sum_{I}P(O,I|\bar\lambda)ln\pi_{i_1} = \sum_{x=1}^N P(O,i_1 = q_x|\bar\lambda)ln\pi_{x}$
因为有 $\pi_x$ 满足约束条件 $\sum_{x=1}^N \pi_x = 1$ ，利用拉格朗日乘子法，写出拉格朗日函数：
$\sum_{x=1}^N P(O,i_1 = q_x|\bar\lambda)ln\pi_{x} + \gamma\left( \sum_{x=1}^N \pi_x - 1\right)$
对其求偏导数并令结果为0
$\dfrac{\partial}{\partial \pi_x}\left[\sum_{x=1}^N P(O,i_1 = q_x|\bar\lambda)ln\pi_{x} + \gamma\left( \sum_{x=1}^N \pi_x - 1\right)\right] = 0 \tag{35}$
得
$P(O,i_1 = q_x|\bar\lambda) +\gamma \pi_x =0$
对 $x$ 求和得到 $\gamma$
$\sum_{x=1}^N P(O,i_1 = q_x|\bar\lambda) +\sum_{x=1}^N \gamma \pi_x =0 \Longrightarrow \gamma = - P(O|\bar\lambda)$
代入式（35）即得
$\pi_x = \dfrac{P(O,i_1 = q_x|\bar\lambda)}{P(O|\bar\lambda)} = \gamma_1(x) \tag{36}$

给定模型参数 $\bar\lambda$ 和观测 $O$ ，在时刻1处于状态 $q_x$ 的概率 $\gamma_1(x)$ 。

2） $A$ 式即式（34）中的第2项，可以写成:
$\sum_{I}P(O,I|\bar\lambda)\sum_{t=1}^{T-1}ln a_{i_t\,i_{t+1}} = \sum_{x=1}^N\sum_{y=1}^N\sum_{t=1}^{T-1}P(O,i_t = q_x,i_{t+1} = q_y|\bar\lambda)lna_{xy}$
相似有约束条件 $\sum_{y=1}^N a_{xy} = 1$ 的拉格朗日乘子法可以求出

$a_{xy} = \dfrac{\sum_{t=1}^{T-1}P(O,i_t = q_x,i_{t+1} = q_y|\bar\lambda)}{\sum_{t=1}^{T-1}P(O,i_t = q_x|\bar\lambda)} = \dfrac{\sum_{t=1}^{T-1}P(O,i_t = q_x,i_{t+1} = q_y|\bar\lambda)/P(O|\bar\lambda)}{\sum_{t=1}^{T-1}P(O,i_t = q_x|\bar\lambda)/P(O|\bar\lambda)} = \dfrac{\sum_{t=1}^{T-1}\xi_t(x,y)}{\sum_{t=1}^{T-1}\gamma_t(x)}\tag{37}$

给定模型 $\bar\lambda$ 和观测 $O$ ，在时刻 $t\space$ 处于状态 $q_x$ 且在时刻 $t + 1$ 处于状态 $q_y$ 的概率 $\xi_t(x,y)$ ，在时刻 $t\,$ 处于状态 $q_x$ 的概率 $\gamma_t(x)$ ；
在观测 $O$ 下，状态 $q_x$ 转移到状态 $q_y$ 的期望值 $\sum_{t=1}^{T-1} \xi_t(x,y)$ ；
在观测 $O$ 下，由状态 $q_x$ 转移的期望值 $\sum_{t=1}^{T-1} \gamma_t(x)$ 。

3） $B$ 式即式（34）中的第3项，可以写成:
$\sum_{I}P(O,I|\bar\lambda)\sum_{t=1}^{T}ln b_{i_t}(o_t) = \sum_{x =1}^N \sum_{t=1}^T P(O,i_t = q_x|\bar\lambda)lnb_x(o_t)$

同样用拉格朗日乘子法，有约束条件 $\sum_{k=1}^M b_{xk} = 1$ 。注意，只有在 $o_t = v_k$ 时 $b_x(o_t)$ 对 $b_{xk}$ 的偏导数才不为0，以 $I(o_t = v_k)$ 表示。求得

$b_{xk} = \dfrac{\sum_{t=1}^T P(O,i_t = q_x|\bar\lambda)I(o_t = v_k)}{\sum_{t=1}^T P(O,i_t = q_x|\bar\lambda)} = \dfrac{\sum_{t=1}^T P(O,i_t = q_x|\bar\lambda)I(o_t = v_k)/P(O|\bar\lambda)}{\sum_{t=1}^T P(O,i_t = q_x|\bar\lambda)/P(O|\bar\lambda)} = \dfrac{\sum_{t=1}^T \gamma_t(x) I(o_t = v_k)}{\sum_{t=1}^T \gamma_t(x)} \tag{38}$

给定模型 $\bar\lambda$ 和观测 $O$ ，在时刻 $t\,$ 处于状态 $q_x$ 的概率 $\gamma_t(x)$ ；
在观测 $O$ 下，状态 $q_x$ 得到观测 $v_k$ 的期望值 $\sum_{t=1,o_t = v_k}^T \gamma_t(x)$ ；
在观测 $O$ 下，状态 $q_x$ 出现的期望值 $\sum_{t=1}^T \gamma_t(x)$ 。

上面求得的 $\Pi$ 式、 $A$ 式和 $B$ 式可以结合式（27）、（28）和（29）更容易理解其意义。

五、预测算法

预测问题，也称为解码（decoding）问题。已知模型 $\lambda = (A,B,\Pi)$ 和观测序列 $(o_1,o_2,\cdots,o_T)$ ，求对给定观测序列条件概率 $P (I ∣ O)$ 最大的状态序列 $(i_1,i_2,\cdots,i_T)$ 。即给定观测序列，求最有可能的对应的状态序列。隐马尔科夫模型预测两种算法：近似算法和维特比算法。

1、近似算法

近似算法的想法是，在每个时刻t选择在该时刻最有可能出现的状态 $i_t^*$ ，从而得到一个状态序列 $I^* = (i_1^*,i_2^*,\cdots,i_T^*)$ ，将它作为预测的结果。

给定隐马尔科夫模型 $\lambda$ 和观测序列 $O$ ，在时刻t处于状态 $q_x$ 的概率 $\gamma_t(x)$ 是
$\gamma_t(x) = \dfrac{\alpha_t(x)\beta_t(x)}{P(O|\lambda)} = \dfrac{\alpha_t(x)\beta_t(x)}{ \sum_{y=1}^N \alpha_t(y)\beta_t(y)} \tag{39}$

在每一时刻t最有可能的状态 $i_t^*$ 是
$i_t^* = arg\,\max_{1\leq x \leq N}[\gamma_t(x)],\;t =1,2,\cdots,T \tag{40}$
从而得到状态序列 $I^* = (i_1^*,i_2^*,\cdots,i_T^*)$ 。

近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分，即单个状态的最优并不能保证整体最优。上述方法得到的状态序列中有可能存在转移概率为0的相邻状态，即对某些 $x,y,a_{xy}=0$ 时。

2、维特比算法

维特比算法实际是用动态规划解隐马尔科夫模型预测问题，即用动态规划求概率最大路径，这时一条路径对应着一个状态序列。

（1）最优路径特性

根据动态规划原理，最优路径具有这样的特性：如果最优路径在时刻t通过结点 $i_t^*$ ，那么这一路经从结点 $i_t^*$ 到终点 $i_T^*$ 的部分路径，对于从 $i_t^*$ 到 $i_T^*$ 的所有可能的部分路径来说，必须是最优的。

依据上面的原理，只需从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i\,$ 的各条部分路径的最大概率，直至得到时刻 $t = T$ 状态为 $i\,$ 的各条路径的最大概率。时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ，最优路径的终结点 $i_T^*$ 也同时得到。
为了找出最优路径的各个结点，从终结点 $i_T^*$ 开始，由后向前逐步求得结点 $i_{T-1}^*,\cdots,i_1^*$ ，得到最优路径 $I^* = (i_1^*,i_2^*,\cdots,i_T^*)$ 。

为什么不在计算最大概率的时候就直接记住 $t\,$ 时刻的概率最大的状态呢？最终求得最大概率后，最优的状态序列 $I^*$ 不就直接求出了吗？

因为 $t\,$ 时刻的最优状态需要 $t + 1$ 时刻来确认验证，而 $t + 1$ 时刻的状态需要 $t + 2$ 时刻验证，所以必须从最后向前才能推出最终的最优状态序列。

（2）两个变量

引入两个变量 $\delta$ 和 $\psi$ 。定义在时刻 $t\,$ 状态为 $q_x\,$ 的所有单个路径 $(i_1,i_2,\cdots,i_t)$ 中概率最大值为
$\delta_t(x) = \max_{i_1,i_2,\cdots,i_{t-1}}P(i_t = q_x,i_{t-1},\cdots,i_1,o_t,\cdots,o_1|\lambda),\;x=1,2,\cdots,N \tag{41}$

$\delta_t(x)$ 与前向概率 $\alpha_t(x)$ 比较

前向概率是计算所有路径在时刻 $t\,$ 状态为 $q_x$ 的概率,是计算指定观测序列 $O$ 出现的概率；
$\delta_t(x)$ 是计算在时刻 $t\,$ 状态为 $q_x$ 中所有路径中的最大概率，是用于计算指定观测序列 $O$ 对应的最大概率状态序列 $I^*$ 。

由定义可得变量 $\delta$ 的递推公式：
$\begin{aligned}\delta_{t+1}(y)&=\max_{i_1,i_2,\cdots,i_{t}} P(i_{t+1} = q_y,i_{t},\cdots,i_1,o_{t+1},\cdots,o_1|\lambda)\\ &=\max_{1\leq x \leq N}[\delta_t(x)a_{xy}]b_y(o_{t+1}),\;y=1,2,\cdots,N;\,t = 1,2,\cdots,T-1 \tag{42} \end{aligned}$

定义在时刻 $t+1\,$ 状态为 $q_y$ 的所有单个路径 $(i_1,i_2,\cdots,i_{t},q_y)$ 中概率最大的路径的第 $t$ 个结点为
$\begin{aligned}\psi_{t+1}(y) = & arg\;\max_{1\leq x \leq N} [\delta_{t}(x)a_{xy}]b_y(o_{t+1})\\ = & arg\;\max_{1\leq x \leq N} [\delta_{t}(x)a_{xy}],\;y = 1,2,\cdots,N\tag{43} \end{aligned}$

加深维特比算法的理解可以参考博客：数学之美：维特比和维特比算法。

（3）维特比算法流程

输入：模型 $\lambda = (A,b,\Pi)$ 和观测 $(o_1,o_2,\cdots,o_T)$ ；

输出：最优路径 $I^* = (i_1^*,i_2^*,\cdots,i_T^*)$ 。

1）初始化
$\delta_1(x) = \pi_x b_x(o_1),\qquad x =1,2,\cdots,N$
$\psi_1(x) = 0,\qquad x =1,2,\cdots,N$

2）递推。对 $1,2,\cdots,T-1$
$\delta_{t+1}(y) = \max_{1\leq x \leq N}[\delta_t(x)a_{xy}]b_y(o_{t+1}),\;y=1,2,\cdots,N$
$\psi_{t+1}(y) = arg\;\max_{1\leq x \leq N} [\delta_{t}(x)a_{xy}],\;y = 1,2,\cdots,N$

3）终止
$P^* = \max_{1\leq y \leq N}\delta_T(y)$
$i_T^* = arg\;\max_{1\leq y \leq N}[\delta_T(y)]$

4）最优路径回溯。对 $t=T-1,T-2,\cdots,1$
$i_t^* = \psi_{t+1}(i_{t+1}^*)$
求得最优路径 $I^* = (i_1^*,i_2^*,\cdots,i_T^*)$ 。

对于隐马尔科夫模型的学习，在学习之前没有接触过相关知识。所以说我的这篇总结很适合刚入门的小白，回过头来看我总结的大部分内容来自李航老师的统计学习方法，既然是对统计学习方法的学习总结，那么我尽可能基于书本来做总结，另外学习过程中发现书确实非常不错，只是在某些方面可能有些简化，对于刚入门的来说不那么好理解。我认为理解有困难的地方，对其进行了补充说明和图示，另外我把书中所有使用 $i, j$ 的地方进行了替换成 $x, y$ ，以免与状态序列 $I$ 发生混淆。

这个模型感觉非常好，可以解决很多问题啊！后面在练习中进一步加深理解。
$* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *$
未完待续……

参考资料

Hayden112

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
10_隐马尔科夫模型HMM2_统计学习方法

文章目录四、学习算法1、监督学习方法2、非监督学习方法（Baum-Welch算法）五、预测算法1、近似算法2、维特比算法（1）最优路径特性（2）两个变量（3）维特比算法流程隐马尔科夫模型内容较多，方便阅读，分成2个部分上接：10_隐马尔科夫模型HMM1_统计学习方法四、学习算法估计模型λ=(A,B,Π)\lambda = (A,B,\Pi)λ=(A,B,Π)参数。隐马尔科夫模型的学习，根...
复制链接

扫一扫

专栏目录