HMM(2) Baum-Welch算法推导

最新推荐文章于 2023-12-11 08:57:31 发布

jrh1223

最新推荐文章于 2023-12-11 08:57:31 发布

阅读量754

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/jrh1223/article/details/104063537

版权

HMM(2) Baum-Welch算法推导

在上一篇博客中介绍了HMM前向后向算法的推导过程，本次介绍的Baum-Welch算法是用来解决HMM的第二个问题的，即在已知观测序列 $O$ ，但不知道隐状态序列 $Q$ 和模型参数 $\lambda$ 时，如何去估计参数 $\lambda$ 。

1 EM算法介绍和推导

由于Baum-Welch算法的推导过程其实是通过EM算法的思想来进行的，所以在这之前我们需要先对EM算法（Expectation-Maximization algorithm）进行简单的推导与介绍。
EM算法最初是为了解决数据缺失情况下参数的估计问题，算法通过迭代的方式不断更新参数直到最终收敛。其中，迭代的过程可以分为E步和M步，这也就是为什么该算法叫做EM 算法的原因。

1-1 Jensen不等式

Jensen不等式的定义如下：

若函数 $f (x)$ 是凸函数， $x$ 是随机变量，那么 $E(f(x))\ge f(E(x))$ 。当且仅当 $x$ 是常量时，不等式取等号成立。
若函数 $f (x)$ 是凹函数， $x$ 是随机变量，那么 $E(f(x))\le f(E(x))$ 。当且仅当 $x$ 是常量时，不等式取等号成立。
如下图所示，直观的对Jensen不等式进行理解。图片源于网络。

1-2 EM算法推导

假设样本集合 $X=\{x_1,x_2,...,x_N\}$ 包含 $N$ 个样本，模型需要估计的参数为 $\lambda$ ，模型的对数似然如式（1-1）：
$L(\lambda)=\sum_{i=1}^N\log{P(x_i;\lambda)}\tag{1-1}$
而极大似然估计则是寻找一组能够使式（1-1）最大的模型参数作为最终的参数估计，即 $\hat\lambda=argmax(L(\lambda))$ 。
若我们得到的样本数据包含为观察到的隐藏数据 $Z=\{z_1,z_2,...,z_N\}$ ，即每个样本对应的隐藏数据。此时我们最大化的对数似然将变为式（1-2）。
$L(\lambda)=\sum_{i=1}^N\log\sum_{z_i}P(x_i,z_i;\lambda)\tag{1-2}$
接下来，假设隐藏数据服从某一分布 $Q(z_i)$ ，对式（1-2）进行变换，如式（1-3）。
$\begin{aligned} L(\lambda) &=\sum_{i=1}^N\log\sum_{z_i}P(x_i,z_i;\lambda)\tag{1-3} \\ &=\sum_{i=1}^N\log\sum_{z_i}Q(z_i)\frac{P(x_i,z_i;\lambda)}{Q(z_i)} \\ &\ge \sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)} \\ \end{aligned}$
式（1-3）中第二步到第三步是利用Jensen不等式完成的，由于 $\log(x)$ 函数是一个凹函数，因此 $E(f(x))\le f(E(x))$ ，在这里是关于 $Q(z_i)$ 的期望。我们通过Jensen不等式确定了 $L(\lambda)$ 的下界，在之前说过只有当函数内的随机变量取到常量时，Jensen不等式才会取到等号，也就是说 $\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=c$ ，由于 $\sum_{i=1}^NQ(z_i)=1$ ：
$\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=c\\ P(x_i,z_i;\lambda)=cQ(z_i) \\ \sum_{z_i}P(x_i,z_i;\lambda)=c\sum_{z_i}Q(z_i) \\ \sum_{z_i}^NP(x_i,z_i;\lambda)=c$
根据上式的推导，我们发现在Jensen不等式取等号时， $\sum_{z_i}P(x_i,z_i;\lambda)$ 也取得常量，因此将常量用 $\sum_{i=1}^NP(x_i,z_i;\lambda)$ 替换后得（1-4）：
$\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=\sum_{z_i}P(x_i,z_i;\lambda) \tag{1-4}$ $Q(z_i)=\frac{P(x_i,z_i;\lambda)}{\sum_{z_i}P(x_i,z_i;\lambda)}=\frac{P(x_i,z_i;\lambda)}{P(x_i;\lambda)}=P(z_i|x_i;\lambda)\tag{1-5}$
式（1-5）的推导展示了在Jensen不等式取得等号时 $Q(z_i)$ 实际上是后验概率，我们此时便可以确定 $Q(z_i)$ 的选择了，计算后验概率的这一步就是E步，在算法中利用上一次迭代得到的参数计算后验概率来对 $Q(z_i)$ 进行更新，下一步M步，我们固定计算好的 $Q(z_i)=P(z_i|x_i;\hat\lambda)$ 来最大化 $\sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)}$ ，即：
$\begin{aligned} argmax\sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)} &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log\frac{P(x_i,z_i;\lambda)}{P(z_i|x_i;\hat\lambda)} \\ &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)}-\sum_{i=1}^N\sum_{z_i}P(z_i|x_i;\hat\lambda)\log{P(z_i|x_i;\hat\lambda} \\ &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)} \end{aligned}$ 上式中第二步的第二项中由于是固定值所以不影响最终的结果，所以将其省略。因此，EM算法的M步就是寻找能够最大化上式 $\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)}$ 的模型参数 $\lambda$ 。

Baum-Welch算法推导

Baum-Welch算法的整个过程就是EM算法的过程。首先在E步我们利用上一次迭代训练出的 $\hat\lambda$ 来计算后验概率，在M步我们固定后验概率计算最大化式（1-6）新的一组参数 $\hat\lambda$ ，其中 $K$ 表示样本集合中序列样本的总数，可以发现式（1-6）和上一节中最后推出来的公式是一致的，未知的隐状态序列 $Q$ 就是EM算法中的隐藏变量。
$\hat\lambda :=argmax_{\lambda}\sum_{k=1}^K\sum_QP(Q|O_k,\hat\lambda)\log{P(O_k,Q|\lambda)}\tag{1-6}$
假设我们的训练样本集是 ${O_1,O_2,...,O_K\}$ ,对于其中的某一个 $O_k=\{o_1^{(k)},o_2^{(k)},...,o_T^{(k)}\}$ ，样本集对应的隐状态集是 ${Q_1,Q_2,...,Q_K\}$ ，对于其中的某一个 $Q_k=\{q_1^{(k)},q_2^{(k)},...,q_T^{(k)}\}$ 。对式（1-6）进一步分解为（1-7）：
$\hat\lambda:=argmax_\lambda\sum_{k=1}^K\sum_Q\frac{P(O_k,Q|\hat\lambda)}{P(O_k|\hat\lambda)}\log{P(O_k,Q|\lambda)}\tag{1-7}$
式（1-7）中由于 $P(O_k|\hat\lambda)$ 的值是固定的，因此可以忽略，式（1-7）则化简为式（1-8）：
$\hat\lambda:=argmax_\lambda\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)\log{P(O_k,Q|\lambda)}\tag{1-8}$
式（1-8）也就是我们最终需要优化的表达式，下面我们需要写出在模型参数为 $\lambda$ 时 $O$ 和 $Q$ 的联合概率分布的详细表达式，如式（1-9），其中式（1-8）中在 $\hat\lambda$ 时 $O$ 和 $Q$ 的联合概率分布与式（1-9）一致，只是因为迭代次数的原因参数值不同而已。式（1-9）中 $i^{t}$ 表示序列 $t$ 时刻的隐状态为 $i$ 。
$P(O,Q|\lambda)=\pi(i^{(1)})b_{i^{(1)}}(o_1)a_{i^{(1)}i^{(2)}}b_{i^{(2)}}(o_2)...a_{i^{(T-1)}i^{(T)}}b_{i^{(T)}}(o_T)\tag{1-9}$
将式（1-9）带入式（1-8）中进行展开得：
$\begin{aligned} \hat\lambda &:=argmax_\lambda\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)\log[{\pi(i^{(1)})b_{i^{(1)}}(o_1)a_{i^{(1)}i^{(2)}}b_{i^{(2)}}(o_2)...a_{i^{(T-1)}i^{(T)}}b_{i^{(T)}}(o_T) }] \\ &=argmax_\lambda\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)(\log\pi(i^{(1)})+\sum_{t=1}^{T-1}\log{a_{i^{(t)}i^{(t+1)}}}+\sum_{t=1}^{T}b_{i^{(t)}}(o_t)) \end{aligned}$
接下来对 $\lambda(\Pi,A,B)$ 内的各个参数求偏导，首先来求 $\hat{\pi(i)}$ ，我们先将求导后为0的部分省略掉。
$\hat{\pi(i)}=argmax_{\pi(i^{(1)})}\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)\log{\pi(i^{(1)})}\tag{1-10}$
由于 $\sum_{i=1}^M\pi(i^{(1)})=1$ 等式条件的约束，因此利用拉格朗日乘子法可以得到需要最大化的拉格朗日函数（1-11）：
$l(\pi)=argmax_{\pi(i^{(1)})}\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)\log{\pi(i^{(1)})}+\gamma(\sum_{i=1}^M\pi(i^{(1)})-1)\tag{1-11}$
对（1-11）求 $\pi(i^{(1)})$ 偏导并令结果等于零得式（1-12）：
$\sum_{k=1}^KP(O_k,q_1^{(k)}=\sigma_i|\hat\lambda)+\gamma\pi(i^{(1)})=0\tag{1-12}$
对式（1-12）两侧对 $i^{(1)}$ 求和得式（1-13）：
$\sum_{k=1}^KP(O_k|\hat\lambda)+\gamma=0\tag{1-13}$
将式（1-13）的 $\gamma=-\sum_{k=1}^KP(O_k|\hat\lambda)$ 带入到式（1-12）中可以得到：
$\begin{aligned} \pi(i^{(1)}) &=\frac{\sum_{k=1}^KP(O_k,q_1^{(k)}=\sigma_i|\hat\lambda)}{\sum_{k=1}^KP(O_k|\hat\lambda)}\tag{1-14} \\ \end{aligned}$

jrh1223

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
HMM(2) Baum-Welch算法推导

HMM(2) Baum-Welch算法推导在上一篇博客中介绍了HMM前向后向算法的推导过程，本次介绍的Baum-Welch算法是用来解决HMM的第二个问题的，即在已知观测序列OOO，但不知道隐状态序列QQQ和模型参数λ\lambdaλ时，如何去估计参数λ\lambdaλ。1 EM算法介绍和推导由于Baum-Welch算法的推导过程其实是通过EM算法的思想来进行的，所以在这之前我们需要先对EM...
复制链接

扫一扫