第九章隐马尔科夫模型HMM

最新推荐文章于 2023-03-05 23:44:45 发布

约定写代码

最新推荐文章于 2023-03-05 23:44:45 发布

阅读量315

点赞数

分类专栏：机器学习文章标签：机器学习 HMM 隐马尔科夫模型

本文链接：https://blog.csdn.net/flying_all/article/details/113674384

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

本文深入探讨了隐马尔科夫模型(HMM)的基本概念，包括其序列性质、状态转移矩阵、观测概率矩阵和初始概率向量。介绍了概率计算中的前向概率算法，并概述了学习过程中的EM算法在HMM中的应用。此外，还阐述了预测问题，即如何找到给定观测序列的最可能状态序列。

摘要由CSDN通过智能技术生成

1 隐马尔科夫模型定义

隐马尔科夫模型是一个seq2seq模型。例如词性标注。

时间序列	t1	t2	t3
状态序列	代词	动词	名词
观察序列	我	爱	机器学习

能够看到的，例如词语是观察序列。看不到的部分是状态序列，例如词性。
状态集合： $Q=\{q_1,q_2,...q_N\}$ , $∣ Q ∣ = N$
观察集合： $V=\{v_1,v_2,...v_M\}$ , $∣ V ∣ = M$
强定义：状态是观测不到的，类比于心理活动。观察是可以看到的，类比于面部表情。

状态序列： $I=\{i_1,i_2,...i_t...i_T\}$ , $i_t\in Q$ , (t=1,2,…T)
观察序列： $O=\{o_1,o_2,...o_t,....o_T\}$ , $o_i\in V$ , (t=1,2,…T)

序列与集合是不同的。序列中的元素是有前后顺序的。
总的时刻用T表示
强定义：每个时刻的观察只与这个时刻的状态有关系。（心理活动影响了面部表情）

在这里插入图片描述

状态转移矩阵：是从一个状态转移到另外一个状态的概率。例如从代词转到动词的概率。 $A=[a_{ij}]_{N*N}$ ，表示从状态i到状态j的转换概率。在t时刻，处于状态 $q_i$ 条件下，在t+1时刻，转移到状态 $q_j$ 的概率 $a_{ij}=P(i_{t+1}=q_j|i_t=q_i)$

观测概率矩阵： $B=[b_{j}(k)]_{N*M}$ 。在t时刻处于状态 $q_j$ 下生成观测 $v_k$ 的概率 $b_j(k)=P(o_t=v_k|i_t=q_j)$

初始概率向量： $\pi=(\pi_i)$ ，在t=1的时刻，状态处于 $q_i$ 的概率。 $\pi_i=P(i_1=q_i)$ , $\pi$ 是一个N维向量。

隐马尔科夫模型： $\lambda = (A,B,\pi)$

以上可以成立的假设是：
1 ⻬次⻢尔科夫性假设：在任意时刻t的状态只依赖于t-1时刻的状态。
$P(i_t|i_{t-1,},o_{t-1},...i_1,o_1)=P(i_t|i_{t-1})$

2 观测独立性假设：任意时刻t的观测只与t时刻的状态有关。
$P(o_t|i_t,i_{t-1}...i_1,o_{t-1},o_{t-2}...o_1)=P(o_t|i_{t})$

观测序列生成算法
输入：隐马尔科夫模型 $\lambda=(A,B,\pi)$ ，观测序列长度T
输出：观测序列 $O={o_1,o_2,...,o_T}$

HMM三个问题
1 概率计算，已知 $\lambda=(A,B,\pi)$ 和 $O={o_1,o_2,...,o_T}$ ，计算 $P(O|\lambda)$
在模型已知的情况下，出现观测序列的概率

2 学习：已知 $O={o_1,o_2,...,o_T}$ ，计算 $\lambda^{*}= argmax P(O|\lambda)$
已知观测序列，计算模型，计算得到的模型应该是使得观测序列的概率最大。

3 预测/编码问题：已知 $\lambda=(A,B,\pi)$ 和 $O={o_1,o_2,...,o_T}$ ，计算 $I^*=argmaxP(I|O\lambda)$
已知模型和观测序列，计算概率最大的状态序列。

2 概率计算算法

2.1 前向概率

在这里插入图片描述
给定模型 $\lambda$ ，时刻t部分观测序列为 $o_1,o_2,...,o_t$ 且状态为 $q_i$ 的概率
递推公式:

这一步是简写，用 $O^t_1$ 表示从1到t时刻的观察序列。

当 $i_t=q_i$ 的时候，在 $t - 1$ 时刻的状态可能为 $q_1,q_2,...q_N$ ，那么 $P(i_t=q_i)=P(i_t=q_i|i_{t-1}=q_1)+P(i_t=q_i|i_{t-1}=q_2)+...+P(i_t=q_i|i_{t-1}=q_N)$ ，根据加法公式得到这一步递推。
在这里插入图片描述
这一步利用的是乘法公式：P(AB)=P(A|B)P(B)
在这里A= $i_t=q_i,o_t$ ,B= $i_{t-1}=q_j,o^{t-1}_1$

在这里插入图片描述

根据定义 $P(i_{t-1}=q_j,o^{t-1}_1)=\alpha_{t-1}(j)$
能够省略公式中的 $o^{t-1}_1$ 是因为假设，t时刻的状态只与t-1时刻的状态有关，t时刻的观察只与t时刻的状态有关。所以可以去掉。

在这里插入图片描述
这里同样是利用乘法规则做变换。：P(AB)=P(A|B)P(B)
在这里A= $o_t$ ,B= $i_{t}=q_i$

这一步替换是根据A方程和B方程的定义来的。

2.2 概率计算

具体计算过程可以通过前向或者后向计算得到。

3 学习算法

已知 $O={o_1,o_2,...,o_T}$ ，计算 $\lambda^{*}= argmax P(O|\lambda)$
已知观测序列，计算模型，计算得到的模型应该是使得观测序列的概率最大。

EM算法是一个一般算法，涉及两类数据，一类数据已知，一类数据未知的时候，可以用EM。

3.1 EM算法

EM算法中观测变量Y 对应观测序列
EM算法中隐随机变量Z 对应状态序列
含有隐变量的概率模型，⽬标是极⼤化观测变量关于参数的对数似然函数，即 $max_{\theta}L(\theta)$
其中
$L(\theta)=logP(Y|\theta)$
$=log\sum_ZP(Y,Z|\theta)$ (边缘概率到联合概率)
$=log\sum_ZP(Y|Z,\theta)P(Z|\theta)$ (乘法规则)

对数似然函数𝐿 (𝜃)与第𝑖次迭代后的对数似然函数 $L(\theta^{(i)})$ 的差 :
在这里插入图片描述

根据Jensen不等式

将上面的式子做以下变形，
在这里插入图片描述

得到: $L(\theta)>=B(\theta,\theta^{(i)})$ ， $B(\theta,\theta^{(i)})$ 是一个下界函数。如果不断找到下界函数的最大值，就近似找到了上界函数的最大值。

记 $max_{\theta}(\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta))$

3.2EM在HMM

对于HMM而言
$\theta$ 就是(A,B,π)
Z就是状态序列I
Y就是观测序列O

隐马尔科夫模型是含有隐变量的概率模型： $P(O|\lambda)=\sum P(O|I,\lambda)P(I|\lambda)$

完全数据 $O,I)=(o_1,o_2...o_T,i_1,i_2,...i_T)$

完全数据的对数似然函数 $logP(O,I|\lambda)$

$Q(\lambda,\lambda^-)$ 函数
在这里插入图片描述

使用Baum-Welch算法完成学习过程。

4 预测算法

已知 $\lambda=(A,B,\pi)$ 和 $O={o_1,o_2,...,o_T}$ ，计算 $I^*=argmaxP(I|O\lambda)$
已知模型和观测序列，计算概率最大的状态序列。
在时刻𝑡状态为𝑖的所有单个路径(𝑖1, 𝑖2, ⋯ , 𝑖𝑡)中概率最⼤值
在这里插入图片描述

得到递推公式：
在这里插入图片描述

这是一个动态规划的过程。在求得 $\delta_{T}(i)$ 取得最大概率的i，经过倒推获得整个I序列。

约定写代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第九章隐马尔科夫模型HMM

文章目录1 隐马尔科夫模型定义2 概率计算算法3 学习算法4 预测算法1 隐马尔科夫模型定义隐马尔科夫模型是一个seq2seq模型。例如词性标注。时间序列t1t2t3状态序列代词动词名词观察序列我爱机器学习能够看到的，例如词语是观察序列。看不到的部分是状态序列，例如词性。状态集合：Q=q1,q2,...qNQ={q_1,q_2,...q_N}Q=q1,q2,...qN,∣Q∣=N|Q|=N∣Q∣=N观察集合：V=v1,v2,...vMV={v_
复制链接

扫一扫