HMM隐马尔可夫模型的数学推导（一）

篝火者2312

已于 2024-04-29 19:02:15 修改

阅读量112

点赞数

分类专栏：机器学习、人工智能笔记文章标签：机器学习算法人工智能

于 2023-10-13 21:24:13 首次发布

本文链接：https://blog.csdn.net/sdksdf/article/details/133818463

版权

机器学习、人工智能同时被 2 个专栏收录

58 篇文章 19 订阅

订阅专栏

笔记

57 篇文章 4 订阅

订阅专栏

文章目录

前言

本文将对隐马尔可夫模型的几个求解问题进行推导。不涉及什么是隐马尔可夫，什么是马尔可夫链之类的东西。
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

原理推导

在推导之前，先对我们的变量进行一下定义。

观测序列X，隐序列Z
$X=\begin{pmatrix} x_1,x_2,\cdots,x_T \end{pmatrix}; \\Z=\begin{pmatrix} z_1,z_2,\cdots,z_T \end{pmatrix};$
$x_T$ 表示观测序列一共有T个。并且每一个都是不同的随机变量，而对应的隐序列也是如此。
$x_i=\begin{pmatrix} v_1,v_2,\cdots,v_m \end{pmatrix}; z_i=\begin{pmatrix} q_1,q_2,\cdots,q_n \end{pmatrix}$
表示每个 $x_i$ 有m个状态集，每个 $z_i$ 有n个状态集合（假设z是离散型）

两个假设

隐马尔可夫模型带有两个假设。

①齐次马尔可夫假设，当前隐序列仅跟前一个隐序列有关。公式表达为
$P(z_t|z_1,z_2,\cdots z_{t-1},x_1,\cdots,x_{t-1})=P(z_t|z_{t-1})$
②观测独立假设。当前观测状态仅和当前的隐状态有关。公式表达为
$P(x_t|x_1,x_2,\cdots x_{t-1},z_1,\cdots,z_{t})=P(x_t|z_{t})$

Learning：

学习参数，是几乎每一个模型都必须要经历的事情，也是模型预测的前提。因此，我们先开始学习模型参数，在学习之前，先对模型参数做一下定义

初始概率分布 $\pi$ ，转移矩阵 $A$ ，发射矩阵 $B$
$\pi=\begin{pmatrix} \pi_1&\pi_2& \cdots & \pi_n \end{pmatrix}$
那么对应的转移矩阵A就是(n,n)维的矩阵， $A=[{a_{ij}}]$ ，表示从状态i转移到状态j的概率。而发射矩阵B则为(n,m)维的矩阵。 $B=[b_{ij}]$ 表示从隐状态i发射到观测状态j的概率

现在，我们用 $\theta=(\pi,A,B)$ 来表示参数。

要求出这些参数，因为观测序列X是我们给定的训练数据集。最朴素的一种想法就是使用极大似然估计求解参数。
$\hat \theta=\max\limits_{\theta}{P(X|\theta)}$
请注意 $P(X|\theta)$ 中的 $\theta$ 是参数。

EM算法求解

对于隐马尔可夫模型，如果X，Z都是给定的，那么直接采用极大似然估计就可以求解，一般称为监督式学习。另外一种就是，仅仅给了X，而未给定Z，称为非监督式学习。

对于非监督式学习，隐马尔科夫链学习参数用的是EM算法。

EM算法分为两步：

①给定 $P(Z|X,\theta^{t})\rightarrow{E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]}$

② ${\theta^{t+1}}=\max\limits_{\theta}{E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]}$

所以，最主要的是求出
$E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]=\sum\limits_{Z}logP(Z,X|\theta)P(Z|X,\theta^t)$
首先求出 $P(Z,X|\theta)$

观测序列和隐序列有着关联，所以在概率中引入隐变量。
$\begin{equation} \begin{aligned} P(X|\theta)=&\sum\limits_{Z}P(X,Z|\theta) \\=&\sum\limits_{Z}P(X|Z,\theta)P(Z|\theta) \end{aligned} \end{equation}$
对于 $P(Z|\theta)$
$\begin{equation} \begin{aligned} P(Z|\theta)=&P(z_1,z_2,\cdots,z_T|\theta) \\=&P(z_T|z_1,z_2,\cdots,z_{T-1},\theta)P(z_1,z_2,\cdots,z_{T-1}|\theta) \\=&P(z_T|z_{T-1},\theta)P(z_1,z_2,\cdots,z_{T-1}|\theta) \\=&a_{(z_{T-1},z_{T})}P(z_1,z_2,\cdots,z_{T-1}|\theta) \end{aligned} \end{equation}$
里面用到了齐次马尔可夫假设。其中 $a_{(z_{T-1},z_{T})}$ 表示第 $T - 1$ 个隐序列到第 $T$ 个隐序列的概率。我们发现 $P(z_1,z_2,\cdots,z_{T-1}|\theta)$ 和 $P(z_1,z_2,\cdots,z_T|\theta)$ 只差一个，那么我们再对 $P(z_1,z_2,\cdots,z_{T-1}|\theta)$ 以上面的方法不断递归，最终得到
$P(Z|\theta)=\pi\prod\limits_{i=1}^{T-1}a_{(z_{i},z_{i+1})}$

其中 $\pi$ 是因为 $P(z_1|z_0)$ ，即代表初始概率。

对于 $P(X|Z,\theta)$
$\begin{equation} \begin{aligned} P(X|Z,\theta)=&P(x_1,x_2,\cdots,x_T|Z,\theta) \\=&P(x_T|x_1,x_2,\cdots,x_{T-1},Z,\theta)P(x_1,x_2,\cdots,x_{T-1}|Z,\theta) \\=&P(x_T|z_{T})P(x_1,x_2,\cdots,x_{T-1}|Z,\theta) \\=&b_{(z_T,x_T)} \end{aligned} \end{equation}$
其中 $a_{(z_{T},x_{T})}$ 表示第 $T$ 个隐序列到第 $T$ 个观测序列的概率。里面用到了观测独立假设。我们同样发现这也可以用递归。同上面的一样。最终得到
$P(X|Z,\theta)=\prod\limits_{j=1}^{T}b_{(z_j,z_j)}$
所以最终
$P(X|\theta)=\sum\limits_{Z}\pi\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}\prod\limits_{j=1}^{T}b_{(z_j,z_j)}$
而
$P(Z,X|\theta)=\pi\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}\prod\limits_{j=1}^{T}b_{(z_j,z_j)}$
所以对于EM算法所求
$\begin{equation} \begin{aligned} E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]=&\sum\limits_{Z}log\left[\pi\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}\prod\limits_{j=1}^{T}b_{(z_j,z_j)}\right]P(Z|X,\theta^t) \\=&\sum\limits_{Z}\left[log\pi+log\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}+log\prod\limits_{j=1}^Tb_{(z_j,z_j)}\right]P(Z|X,\theta^t) \end{aligned} \end{equation}$

要求 ${\theta^{t+1}}=\max\limits_{\theta}{E_{P(Z|X,\theta^{t})}\left[logP(Z,X|\theta)\right]}$ 。因为 $\theta=(\pi,A,B)$ ，分别对里面所有的值求最大。

对于 $\pi$
$\begin{equation} \begin{aligned} \pi^{t+1}=&\max\limits_{\pi}\sum\limits_{Z}\left[log\pi+log\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}+log\prod\limits_{j=1}^Tb_{(z_j,z_j)}\right]P(Z|X,\theta^t) \\=&\max\limits_{\pi}\sum\limits_{Z}log(\pi){P(Z|X,\theta^t)} \\=&\max\limits_{\pi}\sum_{z_1,z_2,\cdots,z_T}log(\pi){P(z_1,z_2,\cdots,z_T|X,\theta^t)} \\=&\max\limits_{\pi}\sum\limits_{z_1}log(\pi)\sum\limits_{z_2,\cdots,z_T}P(z_1,z_2,\cdots,z_T|X,\theta^t) \\=&\max\limits_{\pi}\sum\limits_{z_1}log(\pi)P(z_1|X,\theta^t) \\=&\max\limits_{\pi}\sum\limits_{i=1}^nlog(\pi_{i})P(z_1=q_i|X,\theta^t) \\=&\max\limits_{\pi}\sum\limits_{i=1}^nlog(\pi_{i})\frac{P(z_1=q_i,X|\theta^t)}{P(X,|\theta^t)} \\=&\max\limits_{\pi}\sum\limits_{i=1}^nlog(\pi_{i})P(z_1=q_i,X|\theta^t) \end{aligned} \end{equation}$

因为 $\pi$ 为初始概率分布，故 $\sum\limits_{i=1}^n\pi_i=1$ ，所以，问题就变成了带约束的优化问题。

构造拉格朗日函数
$L(\pi,\lambda)=\sum\limits_{i=1}^nlog(\pi_{i})P(z_1=q_i,X|\theta^t)+\lambda\left[\sum\limits_{i=1}^n\pi_i-1\right]$
对 $\pi_i$ 求导
$\begin{equation} \begin{aligned} &\frac{\partial{L(\pi,\lambda)}}{\partial{\pi_i}} \\=&\frac{1}{\pi_i}P(z_1=q_i,X|\theta^t)+\lambda \\=&0 \\&等式左右乘以\pi_i \\&P(z_1=q_i,X|\theta^t)+\lambda\pi_i=0 \end{aligned} \end{equation}$
所以
$\begin{equation} \begin{aligned} &\sum\limits_{i=1}^n\left[P(z_1=q_i,X|\theta^t)+\pi_i\lambda\right]=0 \\即 \\&\sum\limits_{i=1}^nP(z_1=q_i,X|\theta^t)+\lambda\sum\limits_{i=1}^n\pi_i \\&=\sum\limits_{i=1}^nP(z_1=q_i,X|\theta^t)+\lambda \\&=P(X|\theta^t)+\lambda \\&=0 \end{aligned} \end{equation}$
最后
$\lambda=-P(X|\theta^t)$
将其回代入 $P(z_1=q_i,X|\theta^t)+\lambda\pi_i=0$ 中
$\pi_i=\frac{P(z_1=q_i,X|\theta^t)}{P(X|\theta^t)}$

对于状态转移矩阵A
$\begin{equation} \begin{aligned} L(A)=&\sum\limits_{Z}log\prod\limits_{i=1}^{T-1}a_{(z_i,z_{i+1})}P(Z|X,\theta^t) \\=&\sum\limits_{Z}\sum\limits_{i=1}^{T-1}log[a_{(z_i,z_{i+1})}]P(Z|X,\theta^t) \\=&\sum\limits_{Z}\left[\log a_{(z_1,z_{2})}+\log a_{(z_2,z_{3})}+\cdots+\log a_{(z_{T-1},z_{T})}\right]P(Z|X,\theta^t) \\=&\sum\limits_{Z}\log a_{(z_1,z_{2})}P(Z|X,\theta^t)+\sum\limits_{Z}\log a_{(z_2,z_{3})}P(Z|X,\theta^t)+\cdots+\sum\limits_{Z}\log a_{(z_{T-1},z_{T})}P(Z|X,\theta^t) \end{aligned} \end{equation}$
一项一项地看
$\begin{equation} \begin{aligned} &\sum\limits_{Z}\log a_{(z_1,z_{2})}P(Z|X,\theta^t) \\=&\sum\limits_{z_1,z_2,\cdots,z_T}\log a_{(z_1,z_{2})}P(Z|X,\theta^t) \\=&\sum\limits_{z_1}\sum\limits_{z_2}\log a_{(z_1,z_{2})}\sum\limits_{z_3,\cdots,z_T}P(z_1,z_2,\cdots,z_T|X,\theta^t) \\=&\sum\limits_{z_1}\sum\limits_{z_2}\log a_{(z_1,z_{2})}P(z_1,z_2|X,\theta^t) \\=&\sum\limits_{i=1}^n\sum\limits_{j=2}^n\log a_{(z_1=q_i,z_{2}=q_j)}P(z_1=q_i,z_2=q_j|X,\theta^t) \end{aligned} \end{equation}$
所以，由第一项可得其余项，加起来得
$L(A)=\sum\limits_{t=1}^{T-1}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\log a_{(z_t=q_i,z_{t+1}=q_j)}P(z_t=q_i,z_{t+1}=q_J|X,\theta^t)$
同求 $\pi$ 中的一样，把 $P(z_t=q_i,z_{t+1}=q_J|X,\theta^t)$ 进行贝叶斯展开，然后因为 $P (X)$ 与我们要求的无关，故
$L(A)=\sum\limits_{t=1}^{T-1}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\log a_{(z_t=q_i,z_{t+1}=q_j)}P(z_t=q_i,z_{t+1}=q_J,X|\theta^t)$
又因为对于状态转移矩阵的一行，有 $\sum\limits_{j=1}^na_{(z=q_i,z=q_j)}=1$ ，所以对于矩阵A的拉格朗日函数
$P(A,\lambda)=\sum\limits_{t=1}^{T-1}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\log a_{(z_t=q_i,z_{t+1}=q_j)}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\lambda\left[\sum\limits_{j=1}^na_{(z=q_i,z=q_j)}-1\right]$
对 $a_{(z=q_i,z=q_j)}$ 求导
$\begin{equation} \begin{aligned} \frac{\partial P(A,\lambda)}{\partial a_{(z=q_i,z=q_j)}}=&\sum\limits_{t}^{T-1}\frac{1}{a_{(z_t=q_i,z_{t+1}=q_j)}} P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\lambda \\=&0 \\&等式左右乘以a_{(z=q_i,z=q_j)}得： \\&\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\lambda a_{(z=q_i,z=q_j)}=0 \end{aligned} \end{equation}$
所以，对于不同的 $q_j$ ，有
$\begin{equation} \begin{aligned} &\sum\limits_{j=1}^n\left[\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\lambda a_{(z=q_i,z=q_j)}\right]=0 \\即 \\&\sum\limits_{j=1}^n\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\sum\limits_{j=1}^n\lambda a_{(z=q_i,z=q_j)}=0 \\即 \\&\sum\limits_{t=1}^{T-1}P(z_t=q_i,X|\theta^t)+\lambda =0 \end{aligned} \end{equation}$
将所得 $\lambda$ 回代入 $\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)+\lambda a_{(z=q_i,z=q_j)}=0$ ，得
$a_{(z=q_i,z=q_j)}=\frac{\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)}{\sum\limits_{t=1}^{T-1}P(z_t=q_i,X|\theta^t)}$
对于发射矩阵B
$\begin{equation} \begin{aligned} L(B)=&\sum\limits_{Z}log\prod_{j=1}^Tb_{(z_i,x_i)}P(Z|X,\theta^t) \\=&\sum\limits_{Z}\sum\limits_{j=1}^Tlog\left[b_{(z_i,x_i)}\right]P(Z|X,\theta^t) \\=&\sum\limits_{Z}\left[logb_{(z_1,x_1)}+logb_{(z_2,x_2)}+\cdots+logb_{(z_T,x_T)}\right]P(Z|X,\theta^t) \\=&\sum\limits_{Z}log[b_{(z_1,x_1)}]P(Z|X,\theta^t)+\sum\limits_{Z}log[b_{(z_2,x_2)}]P(Z|X,\theta^t)+\cdots+\sum\limits_{Z}log[b_{(z_T,x_T)}]P(Z|X,\theta^t) \end{aligned} \end{equation}$
一项一项处理，对于 $\sum\limits_{Z}log[b_{(z_1,x_1)}]P(Z|X,\theta)$
$\begin{equation} \begin{aligned} \sum\limits_{Z}log[b_{(z_1,x_1)}]P(Z|X,\theta^t)=&\sum\limits_{z_1,\cdots,z_T}log[b_{(z_1,x_1)}]P(Z|X,\theta^t) \\=&\sum\limits_{z_1}log[b_{(z_1,x_1)}]\sum\limits_{z_2,\cdots,z_T}P(z_1,\cdots,z_T|X,\theta^t) \\=&\sum\limits_{z_1}log[b_{(z_1,x_1)}]P(z_1|X,\theta^t) \\=&\sum\limits_{i=1}^nlog[b_{(z_1=q_j,x_1)}]P(z_1=q_j|X,\theta^t) \end{aligned} \end{equation}$
所以，对于其余项，全部累加起来得
$L(B)=\sum\limits_{t=1}^T\sum\limits_{i=1}^nlog[b_{(z_t=q_i,x_i)}]P(z_t=q_i|X,\theta^t)$
另外，对于转移矩阵B，其行向量是肯定满足 $\sum\limits_{j=1}^m{b_{(z=q_i,x=v_j)}}=1$ ，且与上面所写的一样，对 $P(z_t=q_i|X,\theta^t)$ 贝叶斯展开，然后得到
$L(B，\lambda)=\sum\limits_{t=1}^T\sum\limits_{i=1}^nlog[b_{(z_t=q_i,x_i)}]P(z_t=q_i,X|\theta^t)+\lambda\left[\sum\limits_{j=1}^m{b_{(z=q_i,x=v_j)}}-1\right]$

对 $b_{(z=q_i,x=v_j)}$ 求导，因为拉格朗日函数里面的 $x_i$ 是由给定的数据确定的，我们只对 $x=v_j$ 得部分才有值，其他的都为0。因此，我们引入示性函数
$I=\left\{ \begin{matrix} 1,x=v_j\\ 0,x\ne{u_j} \end{matrix} \right.$
所以
$\begin{equation} \begin{aligned} \frac{\partial{L(\pi,\lambda)}}{\partial{b_{(z=q_i,x=v_j)}}}=&\sum\limits_{t=1}^T\frac{1}{b_{(z_t=q_i,x_t)}}P(z_t=q_i,X|\theta^t)I(x_t=v_j)+\lambda \\=&0 \\&等式左右乘以b_{(z=q_i,x=v_j)} \\&\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)+\lambda{b_{(z=q_i,x=v_j)}}=0 \end{aligned} \end{equation}$

即
$\begin{equation} \begin{aligned} &\sum\limits_{j}^m\left[\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)+\lambda{b_{(z=q_i,x=v_j)}}\right] \\=&\sum\limits_{j=1}^m\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)+\sum\limits_{j=1}^m\lambda{b_{(z=q_i,x=v_j)}} \\=&\sum\limits_{j=1}^m\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)+\lambda \\=&\sum\limits_{t=1}^T\sum\limits_{j=1}^mP(z_t=q_i,X|\theta^t)I(x_t=v_j)+\lambda \\=&0 \end{aligned} \end{equation}$
对于 $\sum\limits_{j=1}^mP(z_t=q_i,X|\theta)I(x_t=v_j)$ ，由于只能存在一个 $x_t=v_j$ ，故
$\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)+\lambda=0$
将其回代入求导所得式中，得
$b_{(z=q_i,x=v_j)}=\frac{\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)}{\sum\limits_{t=1}^TP(z_t=q_i,X|\theta)}$

所以，最终的迭代更新式为
$\pi_i=\frac{P(z_1=q_i,X|\theta^t)}{P(X|\theta^t)}; \\a_{(z=q_i,z=q_j)}=\frac{\sum\limits_{t}^{T-1}P(z_t=q_i,z_{t+1}=q_j,X|\theta^t)}{\sum\limits_{t=1}^{T-1}P(z_t=q_i,X|\theta^t)}; \\b_{(z=q_i,x=v_j)}=\frac{\sum\limits_{t=1}^TP(z_t=q_i,X|\theta^t)I(x_t=v_j)}{\sum\limits_{t=1}^TP(z_t=q_i,X|\theta)}$
可是，还有个问题。等号右边的概率又该如何计算？主要从下一篇evaluationHMM隐马尔可夫模型的数学推导（二）中进行引入。

篝火者2312

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HMM隐马尔可夫模型的数学推导（一）

文章目录前言原理推导两个假设Learning：EM算法求解前言本文将对隐马尔可夫模型的几个求解问题进行推导。不涉及什么是隐马尔可夫，什么是马尔可夫链之类的东西。原理推导在推导之前，先对我们的变量进行一下定义。观测序列X，隐序列ZX=(x1,x2,⋯ ,xT);Z=(z1,z2,⋯ ,zT);X=\begin{pmatrix}x_1,x_2,\cdots,x_T\end{pmatrix};\\Z=\begin{pmatrix}z_1,z_2,\cdots,z_T\end{pmatrix
复制链接

扫一扫

专栏目录