《统计学习方法》笔记——隐马尔科夫模型

最新推荐文章于 2023-05-20 07:00:00 发布

惊了，还能这样？

最新推荐文章于 2023-05-20 07:00:00 发布

阅读量156

点赞数

分类专栏：《统计学习方法》笔记

本文链接：https://blog.csdn.net/qq_30280273/article/details/102469609

版权

文章目录

隐马尔科夫模型

初学隐马尔科夫模型的时候由于概念相对抽象，学习过程中十分费力，在此将对隐马尔科夫模型和其涉及的公式做整理，并对我学习过程中遇到的困难添加一定的注释。

隐马尔科夫模型

模型介绍

隐马尔科夫模型是一种生成模型。
生成过程：
1、存在一个不可观测的马尔科夫链
2、每个时刻马尔科夫链处于一个不可观测的状态
3、每个状态生成一个观测
4、下一时刻按照一定概率转移到下一个不可观测的状态
5、重复3-4步

为了方便对这个模型的研究，现在定义如下量
设 $Q$ 是所有可能状态的集合， $Q=\{q_1,q_2,\cdots,q_N\}$
设 $V$ 是所有可能的观测的集合， $V=\{v_1,v_2,\cdots,v_M\}$
设A为状态转移矩阵， $A=[a_{ij}]_{N\times N}$ ，即状态转移时，从状态 $q_i$ 转移到状态 $q_j$ 的概率，显然其满足 $\sum_{j=1}^Na_{ij}=1$ 。
设 $I$ 为状态序列， $I=\{i_1,i_2,\cdots,i_T\}$ 即从时刻 $1$ 到时刻 $T$ 依次转移并经历了集合中的T个状态。
结合状态转移矩阵 $A$ 和状态序列 $I$
$a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$
设 $B$ 为观测概率矩阵， $B=[b_j(k)]_{N\times M}$ ,用于描述当处于状态 $q_j$ 时，生成观测 $v_k$ 的概率。
设 $O$ 为状态序列 $I$ 对应的观测序列， $O=\{o_1,o_2,\cdots,o_T\}$
结合观测概率矩阵 $B$ 和观测序列 $O$
$b_{j}(k)=P(o_{t}=v_k|i_t=q_j)$
设 $\pi$ 为初始状态向量， $\pi=(\pi_i)$ ，表示
$\pi_i=P(i_1=q_i)$
一个隐马尔科夫模型可以由 $\pi,A,B$ 决定

结合上面繁琐的定义，我们再来审视一下什么是隐马尔科夫模型：

当我们知道初始状态 $\pi=[\pi_1,\pi_2,\cdots,\pi_N]$ 和状态转移矩阵 $A$ ，我们就可以求出任意时刻的状态概率分布，即
$\begin{bmatrix} P(i_t=q_1)\\ P(i_t=q_2)\\ \vdots \\ P(i_t=q_N)\\ \end{bmatrix} =(A^T)^{t-1}\pi$
只要我们知道当前的马尔科夫链的状态，我们就可以通过观测概率矩阵 $B$ 来求得观测量的概率分布
$\begin{bmatrix} P(o_t=v_1|i_t=q_j)\\ P(o_t=v_2|i_t=q_j)\\ \vdots \\ P(o_t=v_M|i_t=q_j)\\ \end{bmatrix} =\begin{bmatrix} b_j(1)\\ b_j(2)\\ \vdots \\ b_j(M)\\ \end{bmatrix}$
可以把右侧这个向量看做一个简单的概率模型，马尔科夫链处于哪个状态决定了选择哪个简单概率模型来生成数据。而马尔科夫链的状态服从状态概率分布 $(A^T)^{t-1}\pi$ ，这个概率分布随着时间的变化而变化。
综上，隐马尔科夫模型就是在时刻 $t$ ，按照当前的状态概率分布 $(A^T)^{t-1}\pi$ 随机选择一个概率模型
$\begin{bmatrix} b_j(1)\\ b_j(2)\\ \vdots \\ b_j(M)\\ \end{bmatrix}$
再根据这个概率模型随机生成一个可观测数据，在下一 $t + 1$ 时刻，状态概率分布依据状态转移矩阵转移到新的状态概率分布 $(A^T)^{t}\pi$ ，并按照新的状态概率分布随机选择一个概率模型，再随机生成一个可观测数据。以此类推。

概率计算

在对隐马尔科夫模型有了以上认识之后，我们就可以根据观测序列 $O$ 对生成模型中的参数 $\lambda=(A,B,\pi)$ 做估计了，采用MLE（最大似然）方法。即
$\lambda=\arg\max_\lambda P(O|\lambda)$

直接计算法

假定我们的观测 $O=\{o_1,o_2,\cdots,o_T\}$ ，来自于某一状态序列 $I=\{i_1,i_2,\cdots,i_T\}$ ，则
$P(I|\lambda)=\pi_{i_1}a_{i_1i_2}a_{i_2i_3}\cdots a_{i_{T-1}i_T}$
对于这一具体的状态序列，观测序列 $O$ 的概率是：
$P(O|I,\lambda)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T)$
联合概率可以求得：
$P(O,I|\lambda)=P(I|\lambda)P(O|I,\lambda)$
则边缘概率 $P(O|\lambda)$ 可以如下计算：
$P(O|\lambda)=\sum_IP(I|\lambda)P(O|I,\lambda)$

最低0.47元/天解锁文章

惊了，还能这样？

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》笔记——隐马尔科夫模型

文章目录隐马尔科夫模型模型介绍概率计算直接计算法向前算法后向算法一些概率和期望的补充计算初学隐马尔科夫模型的时候由于概念相对抽象，学习过程中十分费力，在此将对隐马尔科夫模型和其涉及的公式做整理，并对我学习过程中遇到的困难添加一定的注释。隐马尔科夫模型模型介绍隐马尔科夫模型是一种生成模型。生成过程：1、存在一个不可观测的马尔科夫链2、每个时刻马尔科夫链处于一个不可观测的状态3、每个状...
复制链接

扫一扫