隐马尔可夫模型问题二：模型参数求解

Starry memory

于 2022-03-27 16:14:43 发布

阅读量885

点赞数 2

分类专栏：机器学习人工智能自然语言处理文章标签：算法

本文链接：https://blog.csdn.net/doswynkfsw/article/details/123775221

版权

人工智能同时被 3 个专栏收录

41 篇文章 1 订阅

订阅专栏

机器学习

22 篇文章 1 订阅

订阅专栏

自然语言处理

10 篇文章 0 订阅

订阅专栏

已知隐序列状态

HMM模型解决学习问题，是在已知观测序列，估计模型参数 $\lambda = [{\bf{A,B,\pi }}]$ ，使得 $P(O|\lambda )$ 最大。一般情况下，如果已知观测序列和隐藏序列，模型参数是比较容易求解的，但是对于仅仅已知观测序列，是否能求出模型参数是本节讨论的重点，主要解决方法是使用鲍姆-韦尔奇(Baum-Welch)算法。

Baum-Welch算法原理

对于给定观测序列，求解模型参数。我们将不可观测的状态数据表示为隐含数据 $I$ ，可观测序的数据序列表示为 $O$ 。此时HMM变为包含隐含数据的概率模型。Baum-Welch算法的参数可以通过EM算法学习得到。EM算法分E步和M步，E步被用来求期望， M步被用来求极大化。在E步和M步之前，首先要初始化参数，值得注意的是，不同的初始化参数，会得到不同的估计参数值，所以不存在解析解。
已知：
$P(O|\lambda ) = \sum\limits_I {P(O|I,\lambda )} P(I|\lambda )$

在E步，计算 $Q$ 函数：
$Q(\lambda ,\bar \lambda ) = \sum\limits_I {\log P(O,I|\lambda )P(O,I|\bar \lambda )}$

上述公式中， $\lambda$ 是极大化的模型参数， $\bar \lambda$ 是当前模型参数的估计值。

M步：
极大化 $Q(\lambda ,\bar \lambda )$ 函数，求模型参数 $\lambda = [{\bf{A,B,\pi }}]$ ，

$\bar \lambda = \arg {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \mathop {\max }\limits_\lambda \sum\limits_I {\log P(O,I|\lambda )P(O,I|\bar \lambda )}$

Baum-Welch算法推导

对于 $Q(\lambda ,\bar \lambda )$ 我们可以进行如下的表示：
$\begin{array}{l} Q\left( {\lambda ,\overline \lambda } \right){\rm{ = }}\sum\limits_I {\log {\pi _{{i_1}}}P(O,I|\overline \lambda )} \\ {\kern 42pt} + \sum\limits_I {\left( {\sum\limits_{t = 1}^{T - 1} {\log {a_{{i_t}}}{a_{{i_{t + 1}}}}} } \right)P(O,I|\overline \lambda )} {\rm{ + }}\sum\limits_I {\left( {\sum\limits_{t = 1}^T {\log {b_{{i_t}}}({a_t})} } \right)P(O,I|\overline \lambda )} \end{array}$
对上式进行极大化，由于是三个项和的形式，我们只需将每一项进行极大化，那么最终的结果就是极大化的结果。
对于第一项，可以进行如下的化简：
$\sum\limits_I {\log {\pi _{{i_0}}}P(O,I|\overline \lambda )} {\rm{ = }}\sum\limits_{i = 1}^N {\log {\pi _i}P(O,{i_1} = i|\overline \lambda )}$

${\pi _i}$ 满足 $\sum\limits_{i = 1}^N {{\pi _i}} = 1$ 的约束条件，我们可以在这里使用拉格朗日乘子法方便求得导数。拉格朗日函数如下所示：
$\sum\limits_{i = 1}^N {\log {\pi _i}P(O,{i_1} = i|\overline \lambda )} + \gamma (\sum\limits_{i = 1}^N {{\pi _i} - 1} )$
令上式偏导数为0可以得到：
$\frac{\partial }{{\partial {\pi _i}}}\left[ {\sum\limits_{i = 1}^N {\log {\pi _i}P(O,{i_1} = i|\overline \lambda )} + \gamma (\sum\limits_{i = 1}^N {{\pi _i} - 1} )} \right] = 0$
化简得：
$P(O,{i_1} = i|\overline \lambda ) + \gamma {\pi _i} = 0$
化简得到 $\gamma$ ：
$\gamma = - P(O|\overline \lambda)$
最终可以得到：
${\pi _i} = \frac{{P(O,{i_1} = i|\overline \lambda )}}{{P(O|\overline \lambda )}}$

对于第二项，可以进行如下的化简：
$\sum\limits_I {\sum\limits_{t = 1}^{T - 1} {\log {a_{{i_t}{i_{t + 1}}}}P(O,I|\overline \lambda )} = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {\sum\limits_{t = 1}^{T - 1} {\log {a_{ij}}P(O,{i_t} = i,{i_{t + 1}} = j|\overline \lambda )} } } }$
类似第1项，由于 ${a_{ij}}$ 还满足 $\sum\limits_{j = 1}^N {{a_{ij}}} = 1$ 。和求解 ${\pi _i}$ 类似，可以利用拉格朗日乘子法并对 ${a_{ij}}$ 求导，并令结果为0，可以得到 ${a_{ij}}$ 的迭代表达式为:

${a_{ij}} = \frac{{\sum\limits_{t = 1}^{T - 1} {P(O,{i_t} = i,{i_{t + 1}} = j|\overline \lambda )} }}{{\sum\limits_{t = 1}^{T - 1} {P(O,{i_t} = i|\overline \lambda )} }}$

Starry memory

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
隐马尔可夫模型问题二：模型参数求解

已知隐序列状态HMM模型解决学习问题，是在已知观测序列，估计模型参数λ=[A,B,π]\lambda = [{\bf{A,B,\pi }}]λ=[A,B,π]，使得P(O∣λ)P(O|\lambda )P(O∣λ)最大。一般情况下，如果已知观测序列和隐藏序列，模型参数是比较容易求解的，但是对于仅仅已知观测序列，是否能求出模型参数是本节讨论的重点，主要解决方法是使用鲍姆-韦尔奇(Baum-Welch)算法。Baum-Welch算法原理对于给定观测序列，求解模型参数。我们将不可观测的状态数据表示为隐含数
复制链接

扫一扫