隐马尔可夫模型（HMM）

最新推荐文章于 2024-01-12 23:55:06 发布

搬用工tyler

最新推荐文章于 2024-01-12 23:55:06 发布

阅读量488

点赞数

分类专栏：统计机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/dagedainingjin/article/details/105327255

版权

统计机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

概率图模型

概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率相关关系，即“变量关系图”。根据边的性质不同，概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或马尔可夫网。
在这里插入图片描述

隐马尔可夫模型

隐马尔可夫模型是结构最简单的动态贝叶斯网，是一种最著名的有向图模型，主要用于时序数据建模，在语音识别、自然语言处理等领域有广泛应用。
在这里插入图片描述

1.变量

如上图所示，隐马尔可夫模型中的变量分为两组：

第一组是状态变量 $\{y_1,y_2,\cdots,y_n\}$ ，其中 $y_i\in\mathcal{Y}$ 表示第 $i$ 时刻的系统状态。通常假定状态变量是隐藏的、不可被观测的，因此状态变量也称为隐变量。
第二组是观测变量 $\{x_1,x_2,\cdots,x_n\}$ ，其中 $x_i\in\mathcal{X}$ 表示第 $i$ 时刻的观测值。
在隐马尔可夫模型中，系统通常在多个状态 $\{s_1,s_2,\cdots,s_N\}$ 之间转换，因此状态变量 $y_i$ 的取值范围 $\mathcal{Y}$ 通常是有 $N$ 个可能取值的离散空间。
观测变量 $x_i$ 可以是离散型也可以是连续型，为了便于讨论，我们仅考虑离散型观测变量，并假定其取值范围 $\mathcal{X}$ 为 $\{o_1,o_2,\cdots,o_M\}$ 。

2.依赖

上图中的箭头表示变量间的依赖关系：

在任一时刻，观测变量的取值仅依赖于状态变量，即 $x_t$ 由 $y_t$ 确定，与其他状态变量以及观测变量的取值无关。
同时， $t$ 时刻的状态 $y_t$ 仅依赖于 $t - 1$ 时刻的状态 $y_{t-1}$ ，与其余 $n - 2$ 个状态无关。这就是所谓的“马尔科夫链”，即：系统下一个时刻的状态仅由当前状态决定，不依赖与以往的任何状态。
基于以上依赖关系，所有变量的联合概率分布为
$P(x_1,y_1,\cdots,x_n,y_n)=P(y_1)P(x_1|y_1)\prod^{n}_{i=2}P(y_i|y_{i-1})P(x_i|y_i)$

3.参数

除了结构信息，欲确定一个隐马尔可夫模型还需要三组参数：

状态转移概率：模型在各个状态间转换的概率，通常记为矩阵 $\boldsymbol{A}=[a_{ij}]_{N\times N}$ ，其中
$a_{ij}=P(y_{t+1}=s_j|y_t=s_i),\quad1\leq i,j\leq N,$
表示在任意时刻 $t$ ，若状态为 $s_i$ ，则在下一时刻状态为 $s_j$ 的概率。
输出观测概率：模型根据当前状态获得各个观测值的概率，通常记为矩阵 $\boldsymbol{B}=[b_{ij}]_{N\times M}$ ，其中
$b_{ij}=P(x_t=o_j|y_t=s_i),\quad1\leq i\leq N,1\leq j\leq M$
表示在任意时刻 $t$ ，若状态为 $s_i$ ，则观测值 $o_j$ 被获取的概率。
初始状态概率：模型在初始时刻各状态出现的概率，通常记为 $\boldsymbol{\pi}=(\pi_1,\pi_2,\cdots,\pi_N)$ ，其中
$\pi_i=P(y_1=s_i),\quad1\leq i\leq N,$
表示模型的初始状态为 $s_i$ 的概率。

综上，通过指定状态空间 $\mathcal{Y}$ 、观测空间 $\mathcal{X}$ 和上述三组参数，就能确定一个隐马尔可夫模型，通常用其参数 $\lambda=[\boldsymbol{A},\boldsymbol{B},\boldsymbol{\pi}]$ 来指代。
方便理解实例可参考https://blog.csdn.net/mingzai624/article/details/52399235

隐马尔可夫模型的三个基本问题和解法

在实际应用中，人们常关注隐马尔科夫模型的三个基本问题：

给定模型参数 $\lambda=[\boldsymbol{A},\boldsymbol{B},\boldsymbol{\pi}]$ ，如何有效计算其产生观测序列 $\boldsymbol{x}=\{x_1,x_2,\cdots,x_n\}$ 的概率 $P(\boldsymbol{x}|\lambda)$ ？换言之，如何评估模型与观测序列之间的匹配程度？
估计问题，一般使用前向算法，参考https://blog.csdn.net/ppn029012/article/details/8923501
给定模型参数 $\lambda=[\boldsymbol{A},\boldsymbol{B},\boldsymbol{\pi}]$ 和观测序列 $\boldsymbol{x}=\{x_1,x_2,\cdots,x_n\}$ ，如何找到与此观测序列最匹配的状态序列 $\boldsymbol{y}=\{y_1,y_2,\cdots,y_n\}$ ？换言之，如何根据观测序列推断出隐藏的模型状态？
解码问题，一般使用维特比算法，参考https://www.zhihu.com/question/20136144
给定观测序列 $\boldsymbol{x}=\{x_1,x_2,\cdots,x_n\}$ ，如何调整模型参数 $\lambda=[\boldsymbol{A},\boldsymbol{B},\boldsymbol{\pi}]$ 使得该序列出现的概率 $P(\boldsymbol{x}|\lambda)$ 最大？换言之，如何训练模型使得其能最好地描述观测数据？
学习问题，使用EM算法，参考https://blog.csdn.net/continueOo/article/details/77893587

另有参考：
1.机器学习（西瓜书）

搬用工tyler

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
隐马尔可夫模型（HMM）

概率图模型概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率相关关系，即“变量关系图”。根据边的性质不同，概率图模型可大致分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或马尔科夫网。隐马尔可夫模型隐马尔可夫模型是结构...
复制链接

扫一扫

专栏目录