机器学习:隐马尔可夫模型——学习算法

最新推荐文章于 2021-07-05 17:46:38 发布

无聊的人生事无聊

最新推荐文章于 2021-07-05 17:46:38 发布

阅读量429

点赞数

分类专栏：信息科学文章标签：机器学习

本文链接：https://blog.csdn.net/Wangpeiyi9979/article/details/97294343

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

问答总结

学习问题分为哪两种，它们的条件是怎样的？
在有监督的学习问题中，如何估计参数？
在无监督的学习问题中，我们采用EM算法求解模型。EM算法的 $Q$ 函数是什么？
解决无监督学习问题的算法是什么?

一、目标

前文中说过，隐马尔可夫模型的学习问题是指:

已知观测序列 $O = (o_1, o_2, ..., o_T)$ , 估计模型 $\lambda=(A, B, \pi)$ .使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。即使用极大似然估计方法估计参数。即:
$\lambda^*=arg \max_{\lambda}P(O|\lambda)$

具体的，我们还可以细化为

(1)训练数据包括观测序列和对应的状态序列。——监督学习
(2)训练数据仅仅包括观测序列。——无监督学习。

二、监督学习方法

输入训练样本为 $S = \{(O_1, I_1),(O_2,I_2), ..., (O_s, I_s)\}$ ，我们采取极大似然估计法估计模型 $\lambda = (A, B, \pi)$ .
1、转移概率 $a_{ij}$ 的估计:

令 $A_{ij}$ 为样本中状态 $i$ 转到状态 $j$ 的频数。则 $\hat{a_{ij}} = \frac{A_{ij}}{\sum_{j=1}^NA_{ij}}$

2、观测概率 $b_j(k)$ 的估计:

令样本中状态 $j$ 且观测为 $k$ 的频数是 $B_{jk}$ , 则:
$\hat{b_j(k)} = \frac{B_{jk}}{\sum_{i=1}^MB_{jk}}$

3、初始状态概率 $\pi_i$ 的估计 $\hat{\pi_i}$ 为样本中初始状态为 $q_i$ 的频率。

三、无监督学习方法

1、学习方法—EM

当输入训练样本 $S$ 只包含观测序列 $S = \{O_1, O_2, ..., O_S\}$ , 我们将状态序列看作不可观测的隐数据 $I$ ， 那么HMM事实上是含有隐变量的概率模型:
$\lambda^* = arg \max_{\lambda}P(O|\lambda) = arg \max_{\lambda}\sum_{I}P(O|I,\lambda)P(I|\lambda)$

对于含隐变量的模型，它的参数学习可以使用 $E M$ 方法。

EM方法简单的脉络如下

起因: 最大似然的缺陷.
- 两个(可以是多个)分布 (一般只是参数不同).两类数据，但是混合在一起，因此无法直接使用使用最大似然，求得两个分布的参数.(参考文献1中四川人东北人例子)
- 因此考虑映入隐变量(一般代表着数据的类别).
矛盾: 先鸡还是先蛋问题.
- 隐变量(属于哪一类的概率)需要分布参数来确定.
- 分布参数需要隐变量的值加上数据来确定.
- 不知该从哪里下手.
启发式: 一个一个来
- 初始化两个分布的参数.
- 根据两个分布的参数算出隐变量的概率.
- 按算出隐变量的概率更新分布的参数.
  - 如果直接多个分布最大似然来求，涉及到 $l o g$ 相加, 数学上太麻烦.
  - 考虑jenson不等式. 搞出一个最大似然的下界.
  - 优化下界, 即可优化最大似然.
  - 省去下界的无关项，推出优化目标，取名为Q函数
- 就这样交替更新.
- 最后收敛到一个较好值.
注意：
- EM算法并不保证收敛到全局最优，因此和初值的选取有关系.

2、EM方法步骤

(1)、确定完全数据的对数似然函数。

观测数据: $O = (o_1, o_2, ...., o_T)$
隐数据: $I=(i_1, i_2, ..., i_T)$
完全数据: $O, I) = (o_1, ..., o_T,i_1, ...i_T)$
完全数据对数似然函数: $\lambda)$

(2)、EM算法E步: 求Q函数 $Q(\lambda, \bar{\lambda})$
$\begin{aligned} Q(\lambda, \bar{\lambda}) &= \sum_{I}logP(O, I|\lambda)P(I|O,\bar{\lambda}) \\ &= \sum_{I}logP(O,I|\lambda)\frac{P(I, O|\bar{\lambda})}{P(O|\bar{\lambda})} \end{aligned}$

由于 $Q$ 函数是关于 $\lambda$ 的参数，而 $P(O|\bar{\lambda})$ 对 $\lambda$ 是常数。因此极大化 $Q$ 函数时我们可以省去它，简化 $Q$ 函数为：
$Q(\lambda, \bar{\lambda}) = \sum_{I}logP(O, I|\lambda)P(O, I|\bar{\lambda})$

(3)、EM算法M步：极大化 $Q$ 函数 $Q(\lambda, \bar{\lambda})$ 求得更新后的模型参数 $A,B,\pi$

推导过程省略，可参考李航统计学习方法第二版P205。

3、Baum-Welch算法

在这里插入图片描述

参考资料

[1] EM算法详细推导和讲解

无聊的人生事无聊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习:隐马尔可夫模型——学习算法

问答总结文章目录一、目标二、监督学习方法三、无监督学习方法1、学习方法—EM2、EM方法步骤3、Baum-Welch算法参考资料一、目标前文中说过，隐马尔可夫模型的学习问题是指:已知观测序列O=(o1,o2,...,oT)O = (o_1, o_2, ..., o_T)O=(o1,o2,...,oT), 估计模型λ=(A,B,π)\lambda=(A, B, \pi)λ=(A,B,...
复制链接

扫一扫