机器学习——HMM

最新推荐文章于 2024-04-10 12:05:12 发布

yfqh9588

最新推荐文章于 2024-04-10 12:05:12 发布

阅读量310

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43635468/article/details/106328884

版权

HMM定义

1、马尔可夫链
马尔可夫链是满足马尔可夫性质的随机过程。马尔可夫性质是无记忆性，也就是说，这一时刻的状态，受且只受前一时刻的影响，而不受更往前时刻的状态的影响。我们下面说的隐藏状态序列就马尔可夫链。
2、隐马尔可夫模型
隐马尔科夫模型(HMM, Hidden Markov Model)可用标注问题，在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。
HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。
隐马尔科夫模型随机生成的状态随机序列，称为状态序列。每个状态生成一个观测，由此产生的观测随机序列，称为观测序列。
在这里插入图片描述
隐马尔科夫模型有初始概率分布、状态转移概率分布以及观测概率分布确定，其形式化定义如下:
设 $Q$ 是所有可能状态集合， $V$ 是所有可能的观测的集合

其中 $N$ 是可能的状态数， $M$ 是可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列
在这里插入图片描述
A是状态转移矩阵

其中

表示的是 $t$ 时刻处于 $q_i$ 的条件下在 $t + 1$ 时刻状态转移到 $q_j$ 的概率。
B是观测概率矩阵

其中

是在时刻t处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$π$ 是初始状态概率向量
在这里插入图片描述
其中

所以隐马尔科夫模型 $\lambda$ 可以用三元符号表示，即

隐马尔科夫模型的两个性质

1、齐次马尔科夫性假设
即设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于前一时刻的状态，与其他时刻的状态以及观测无关。
在这里插入图片描述
2、观测独立性假设
即假设任意时刻的观测只依赖该时刻的马尔科夫链的状态，与其他观测和状态无关。

HMM的三个基本问题

1、概率计算问题
给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ 计算在模型 $\lambda$ 下观测序列为 $O$ 的概率 $P(O|\lambda)$ 。
2、学习问题
已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 的参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。
3、预测问题
也成为解码问题。已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求对给定的观测序列概率P $P (I ∣ O)$ 的最大值。即给定观测序列，求最有可能的对应状态序列。

概率计算问题

直接计算法

按照概率公式，列举所有可能的长度为 $T$ 的状态序列 $I=\{i_1,i_2,···,i_t\}$ 求各个状态序列 $I$ 与观测序列 $O=\{o_1,o_2,···,o_t\}$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，从而得到 $P(O|\lambda)$ 。
状态序列 $I=\{i_1,i_2,···,i_t\}$ 的概率是：
在这里插入图片描述
对固定的状态序列 $I$ ，观测序列 $O$ 的概率是：

$O$ 和 $I$ 同时出现的联合概率是：

对所有可能的状态序列 $I$ 求和,得到观测序列 $O$ 的概率 $P(O|\lambda)$ ：

最终式：

前向算法

给定 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o 1, o 2, . . ., o t$ 且状态为 $q i$ 的概率称为前向概率，记做：
在这里插入图片描述
可以递推计算前向概率 $a_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
初值：

递推：

最终：

后向算法

给定 $\lambda$ ，定义到时刻 $t$ 状态为 $q i$ 的前提下，从 $t + 1$ 到 $T$ 的部分观测序列为 $o t + 1, o t + 2 . . o T$ 的概率为后向概率，记做：
在这里插入图片描述
可以递推计算后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
初值：

递推：

最终：

说明：
为了计算在时刻 $t$ 状态为 $q i$ 条件下时刻 $t + 1$ 之后的观测序列为 $o t + 1, o t + 2, . . ., o T$ 的后向概率 $\beta_t(i)$ ，只需要考虑在时刻 $t + 1$ 所有可能的 $N$ 个状态 $q j$ 的转移概率 $(a i j 项)$ ，以及在此状态下的观测 $o t + 1$ 的观测概率 $(b j o t + 1 项)$ ，然后考虑状态 $q j$ 之后的观测序列的后向概率 $\beta_t(j)$ 。

Baum-Welch算法

若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。
EM算法整体框架：
在这里插入图片描述
所有观测数据写成 $O=(o_1,o_2,...,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,...,i_T)$ ，完全数据是 $O,I)=(o_1,o_2,...,o_T,i_1,i_2,...,i_T)$ 完全数据的对数似然函数是 $InP(O,I|\lambda)$ 。
假设 $\overline{\lambda}$ 是HMM参数的当前估计值，入为待求的参数。
在这里插入图片描述
EM过程
根据：

函数可写成：

极大化
极大化 $Q$ ，求得参数 $A,B,\pi$ ，由于该三个参数分别位于三个项中，可分别极大化：

注意 $\pi_i$ 满足加和为1，利用拉格朗日乘子法得到:

初始状态概率
对上式相对于 $T_i$ 求偏导得到:
在这里插入图片描述
对 $i$ 求和得到：

从而得到初始状态概率:

转移概率和观测概率
第二项可写成:

仍然使用拉格朗日乘子法，得到：

同理，得到：

预测算法

近似算法

在每个时刻 $t$ 选择在该时刻最有可能出现的状态 $i_t^*$ ，从而得到一个状态序列 $I^*=\{i_1^*,i_2^*, ...,i_t^*\}$ ，将它作为预测的结果。
给定模型和观测序列，时刻 $t$ 处于状态 $q_i$ 的概为：
在这里插入图片描述

Viterbi算法

Viterbi算法实际是用动态规划解HMM预测问题，用DP求概率最大的路径(最优路径)，这是一条路径对应一个状态序列。
定义变量 $\delta_t(i)$ :在时刻 $t$ 状态为 $i$ 的所有路径中，概率的最大值。
定义:
在这里插入图片描述
递推:

终止:

yfqh9588

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——HMM

HMM定义1、马尔可夫链马尔可夫链是满足马尔可夫性质的随机过程。马尔可夫性质是无记忆性，也就是说，这一时刻的状态，受且只受前一时刻的影响，而不受更往前时刻的状态的影响。我们下面说的隐藏状态序列就马尔可夫链。2、隐马尔可夫模型隐马尔科夫模型(HMM, Hidden Markov Model)可用标注问题，在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。隐马尔科夫
复制链接

扫一扫