HMM完全推导与理解(前向后向算法，Baum-Welch算法)

jrh1223

已于 2023-03-19 17:59:34 修改

阅读量588

点赞数

分类专栏：机器学习文章标签：算法人工智能隐马尔可夫模型机器学习

于 2022-11-22 11:20:45 首次发布

本文链接：https://blog.csdn.net/jrh1223/article/details/127979320

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 HMM 前向后向算法推导

1.1 HMM基础知识点

对于HMM模型，其主要是处理序列问题，并且该问题包括一个表象的观测序列和一个可能无法直接观察到的隐藏序列（或者叫状态序列），且这两个序列都是包括 $T$ 个时刻的序列。观测序列的数学表达如式（1），状态序列的数学表达如式（2）：
$O=\lbrace o_1,o_2,...,o_T \rbrace$

$Q=\lbrace q_1,q_2,...,q_T \rbrace$

对于观测序列的每一个 $o_t$ 可以有 $N$ 个不同的观测值，对于状态序列的每一个 $q_t$ 可以有 $M$ 个不同的状态值，具体的数学表达如下：
$o_t=\lbrace v_1,v_2,...,v_N\rbrace$

$q_t=\lbrace \sigma_1,\sigma_2,...,\sigma_M\rbrace$

HMM中有两个重要的假设：

齐次马尔科夫链假设。也就是说任意时刻的隐藏状态都只和前一时刻的隐藏状态有关，如式（5）。因此产生了一个概念，就是隐状态转移概率， $a_{ij}$ ，表示隐藏状态从 $t$ 时刻的状态 $i$ 转换为 $t + 1$ 时刻的状态 $j$ 的概率。每一个隐状态转移到另一个状态的概率集合可以通过状态转移矩阵来表示，如（5）（6）。

$P(q_{t+1}|q_t,q_{t-1},q_{t-2},...,q_{1})=P(q_t+1|q_t)$

$A=[a_{ij}]_{M\times M} ;i\in\{1,2,...,M\},j\in\{1,2,...,M\}$

观测独立性假设。也就是说任意时刻的观测状态只与当前时刻的隐藏状态有关，如式（7）。因此产生了一个概念，就是发射概率 $b_j(k)$ ，表示在时刻 $t$ 时隐藏状态 $q_t$ 是 $i_j$ 时，观测结果 $o_t$ 是 $v_k$ 的概率。每一个有状态到每一个不同的观测结果的发射概率的集合可以通过发射矩阵来表示，如（8）。

$P(o_t|q_t,q_{t-1},...,q_1)=P(o_t|q_t)$

$B=[b_j(k)]_{M\times N};j\in\{1,2,...,M\},k\in\{1,2,...,N\}$

除了上面的隐状态转移矩阵和发射矩阵，还需要一个在 $t = 1$ 时每一个隐藏状态的初始分布 $\Pi$ ，如（9）所示。
$\Pi=[\pi(i)]_N;\pi(i)=P(q_1=i);i\in\{1,2,...,M\}$
因此，一个HMM模型可以通过一个三元组 $\lambda(A,B,\Pi)$ 来表示。

1.2 前向后向算法

前向和后向算法都是为了解决HMM中的第一个问题，即在观测序列 $O$ 和模型参数 $\lambda$ 都已知，状态序列 $Q$ 未知的条件下求产生这样的观测序列的概率是多少，也就是求 $P(O|\lambda)=\sum_QP(O,Q|\lambda)$ 。由于通过暴力搜索来计算每一种隐状态序列产生观测序列概率的复杂度很高， $\Theta(TN^T)$ ，所以需要通过前向后向算法来简化计算的复杂度， $\Theta(TN^2)$ 。

1.2.1 前向算法

前向算法的推导可以通过动态规划的思想逐步求解出来，首先我们定义前向概率，即观测序列是 $o_1,o_2,...,o_t$ ,且 $t$ 时刻的隐状态是 $\sigma_i$ 时的概率，数学表达如式（10）：
$\alpha_t(i)=P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda);i\in\{1,2,...,M\}$
前向算法推导过程如下所示：
$\begin{aligned} \alpha_{t+1}(i) & =P(o_1,o_2,...,o_t,o_{t+1},q_{t+1}=\sigma_j|\lambda) \\ & = P(o_1,o_2,...,o_t,o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)\\ & = P(o_1,o_2,...,o_t|q_{t+1}=\sigma_j,\lambda)P(o_{t+1}|q_{t+1},\lambda)P(q_{t+1}=\sigma_j|\lambda)\\ & = P(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1},\lambda)\\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t|q_t=\sigma_i,\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\sum_{i}^MP(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(o_{t+1}|q_{t+1},\lambda) \\ & =\left[\sum_i^M\alpha_t(i)a_{ij}\right]b_j(o_{t+1}) \\ & =\left[\sum_i^M\alpha_t(i)\times状态转移概率\right]\times发射概率 \end{aligned}$
因此，问题一的最终结果是 $P(O|\lambda)=\sum_i^M\alpha_T(i)$ ,其中 $\alpha_T(i)$ 可以通过以上的公式推导逐步的计算出来。

1.2.2 后向算法

后向算法的推导和前向算法的思想一样，都是通过动态规划的思想逐步推导出最终结果。和前向概率一样，我们需要先定义一个后向概率如式（12）。
$\beta_{t+1}(j)=P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)$

后向算法推导过程如下所示：
$\begin{aligned} \beta_t(i) &= P(o_{t+1},o_{t+2},...,o_T|q_{t}=\sigma_i,\lambda) \\ & =\sum_{j}^MP(o_{t+1},o_{t+2},...,o_T,q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,q_{t}=\sigma_i,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda) \\ & =\sum_j^MP(o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|q_{t}=\sigma_i,\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda) \\ & =\sum_j^M\beta_{t+1}(j)a_{ij}b_j(o_{t+1}) \\ & =\sum_j^M\beta_{t+1}(j)\times状态转移概率\times发射概率 \end{aligned}$
因此，问题一的最终结果是 $P(O|\lambda)=\sum_i\pi(i)b_i(o_1)\beta_1(i)$ ,其中 $\beta_1(i)$ 可以通过以上的公式推导逐步的计算出来。

1.2.3 衍生公式推导

根据前向和后向算法我们可以推导出其他的公式。如式（14）所示，是在模型参数 $\lambda$ 和观测序列 $O$ 都已知的情况下， $t$ 时刻的隐状态是 $\sigma_i$ 的概率。
$\begin{aligned} \gamma_t(i) & =P(q_t=\sigma_i|O,\lambda) \\ & =\frac{P(O,q_t=\sigma_i|\lambda)}{P(O|\lambda)} \\ & = \frac{P(o_1,o_2,...,o_T,q_t=\sigma_i|\lambda)}{\sum_j^MP(o_1,o_2,...,o_T,q_t=\sigma_j|\lambda)} \\ & =\frac{P(o_1,o_2,...,o_T|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)}{\sum_j^MP(o_1,o_2,...,o_T|q_t=\sigma_j,\lambda)P(q_t=\sigma_j|\lambda)} \\ & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(o_{t+1},o_{t+2},...,o_T|q_t=\sigma_i,\lambda)}{\sum_j^MP(o_1,o_2,...,o_t,q_t=\sigma_j|\lambda)P(o_{t+1},o_{t+2},...,o_T|q_t=\sigma_j,\lambda)} \\ & =\frac{\alpha_t(i)\beta_t(i)}{\sum_j^M\alpha_t(j)\beta_t(j)} \end{aligned}$
如式(15)所示，在模型参数 $\lambda$ 和观测序列 $O$ 都已知的情况下， $t$ 时刻的隐状态是 $\sigma_i$ ， $t + 1$ 时刻的隐状态是 $\sigma_j$ 的概率。
$\begin{aligned} \xi_t(i,j) & =P(q_t=\sigma_i,q_{t+1}=\sigma_j|O,\lambda) \\ & =\frac{P(q_t=\sigma_i,q_{t+1}=\sigma_j,O|\lambda)}{P(O|\lambda)} \\[2ex] & =\frac{P(o_1,o_2,...,o_T,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_T,q_t=\sigma_i|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|q_{t+1}=\sigma_j,\lambda)P(o_{t+1},o_{t+2},...,o_T|q_{t+1}=\sigma_j,\lambda)P(q_{t+1}=\sigma_j|\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i,q_{t+1}=\sigma_j|\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_{t+1}=\sigma_j|q_t=\sigma_i,\lambda)P(q_t=\sigma_i|\lambda)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{P(o_1,o_2,...,o_t,q_t=\sigma_i|\lambda)P(q_{t+1}=\sigma_j|q_t=\sigma_i)P(o_{t+1}|q_{t+1}=\sigma_j,\lambda)P(o_{t+2},o_{t+3},...,o_T|q_{t+1}=\sigma_j,\lambda)}{\sum_s^M\sum_r^MP(o_1,o_2,...,o_T,q_t=\sigma_s,q_{t+1}=\sigma_r|\lambda)} \\[4ex] & =\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_s^M\sum_r^M\alpha_t(s)a_{sr}b_r(o_{t+1})\beta_{t+1}(r)} \end{aligned}$

2 HMM Baum-Welch算法

Baum-Welch算法是用来解决HMM的第二个问题的，即在已知观测序列 $O$ ，但不知道隐状态序列 $Q$ 和模型参数 $\lambda$ 时，如何去估计参数 $\lambda$ 。

2.1 EM算法介绍和推导

由于Baum-Welch算法的推导过程其实是通过EM算法的思想来进行的，所以在这之前我们需要先对EM算法（Expectation-Maximization algorithm）进行简单的推导与介绍。
EM算法最初是为了解决数据缺失情况下参数的估计问题，算法通过迭代的方式不断更新参数直到最终收敛。其中，迭代的过程可以分为E步和M步，这也就是为什么该算法叫做EM 算法的原因。

2.1.1 Jensen不等式

Jensen不等式的定义如下：

若函数 $f (x)$ 是凸函数， $x$ 是随机变量，那么 $E(f(x))\ge f(E(x))$ 。当且仅当 $x$ 是常量时，不等式取等号成立。
若函数 $f (x)$ 是凹函数， $x$ 是随机变量，那么 $E(f(x))\le f(E(x))$ 。当且仅当 $x$ 是常量时，不等式取等号成立。
如下图所示，直观的对Jensen不等式进行理解。图片源于网络。

2.1.2 EM算法推导

假设样本集合 $X=\{x_1,x_2,...,x_N\}$ 包含 $N$ 个样本，模型需要估计的参数为 $\lambda$ ，模型的对数似然如式（16）：
$L(\lambda)=\sum_{i=1}^N\log{P(x_i;\lambda)}$
而极大似然估计则是寻找一组能够使式（16）最大的模型参数作为最终的参数估计，即 $\hat\lambda=argmax(L(\lambda))$ 。
若我们得到的样本数据包含为观察到的隐藏数据 $Z=\{z_1,z_2,...,z_N\}$ ，即每个样本对应的隐藏数据。此时我们最大化的对数似然将变为式（17）。
$L(\lambda)=\sum_{i=1}^N\log\sum_{z_i}P(x_i,z_i;\lambda)$
接下来，假设隐藏数据服从某一分布 $Q(z_i)$ ，对式（17）进行变换，如式（18）。
$\begin{aligned} L(\lambda) &=\sum_{i=1}^N\log\sum_{z_i}P(x_i,z_i;\lambda) \\ &=\sum_{i=1}^N\log\sum_{z_i}Q(z_i)\frac{P(x_i,z_i;\lambda)}{Q(z_i)} \\ &\ge \sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)} \\ \end{aligned}$
式（1-3）中第二步到第三步是利用Jensen不等式完成的，由于 $\log(x)$ 函数是一个凹函数，因此 $E(f(x))\le f(E(x))$ ，在这里是关于 $Q(z_i)$ 的期望。我们通过Jensen不等式确定了 $L(\lambda)$ 的下界，在之前说过只有当函数内的随机变量取到常量时，Jensen不等式才会取到等号，也就是说 $\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=c$ ，由于 $\sum_{i=1}^NQ(z_i)=1$ ：
$\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=c\\ P(x_i,z_i;\lambda)=cQ(z_i) \\ \sum_{z_i}P(x_i,z_i;\lambda)=c\sum_{z_i}Q(z_i) \\ \sum_{z_i}^NP(x_i,z_i;\lambda)=c$
根据上式的推导，我们发现在Jensen不等式取等号时， $\sum_{z_i}P(x_i,z_i;\lambda)$ 也取得常量，因此将常量用 $\sum_{i=1}^NP(x_i,z_i;\lambda)$ 替换后得（20）：
$\frac{P(x_i,z_i;\lambda)}{Q(z_i)}=\sum_{z_i}P(x_i,z_i;\lambda)$

$Q(z_i)=\frac{P(x_i,z_i;\lambda)}{\sum_{z_i}P(x_i,z_i;\lambda)}=\frac{P(x_i,z_i;\lambda)}{P(x_i;\lambda)}=P(z_i|x_i;\lambda)$

式（22）的推导展示了在Jensen不等式取得等号时 $Q(z_i)$ 实际上是后验概率，我们此时便可以确定 $Q(z_i)$ 的选择了，计算后验概率的这一步就是E步，在算法中利用上一次迭代得到的参数计算后验概率来对 $Q(z_i)$ 进行更新，下一步M步，我们固定计算好的 $Q(z_i)=P(z_i|x_i;\hat\lambda)$ 来最大化 $\sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)}$ ，即：
$\begin{aligned} &argmax\sum_{i=1}^N\sum_{z_i} Q(z_i)\log\frac{P(x_i,z_i;\lambda)}{Q(z_i)} \\ &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log\frac{P(x_i,z_i;\lambda)}{P(z_i|x_i;\hat\lambda)} \\ &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)}-\sum_{i=1}^N\sum_{z_i}P(z_i|x_i;\hat\lambda)\log{P(z_i|x_i;\hat\lambda)} \\ &=argmax\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)} \end{aligned}$
上式中第二步的第二项中由于是固定值所以不影响最终的结果，所以将其省略。因此，EM算法的M步就是寻找能够最大化上式 $\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)}$ 的模型参数 $\lambda$ 。

2.2 Baum-Welch算法推导

2.2.1 E步

由2.1节介绍，我们知道EM算法最后需要优化的是：
$\sum_{i=1}^N\sum_{z_i} P(z_i|x_i;\hat\lambda)\log{P(x_i,z_i;\lambda)}$
结合HMM算法中的观测序列和状态序列的定义，式（23）又可以写成式（24），其中K表示样本集合中序列样本的总数：
$\sum_{k=1}^{K}\sum_{Q} P(Q|O_k,\hat\lambda)\log{P(O_k,Q;\lambda)}$
假设我们的训练样本集是 ${O_1,O_2,...,O_K\}$ ,对于其中的某一个 $O_k=\{o_1^{(k)},o_2^{(k)},...,o_T^{(k)}\}$ ，样本集对应的隐状态集是 ${Q_1,Q_2,...,Q_K\}$ ，对于其中的某一个 $Q_k=\{q_1^{(k)},q_2^{(k)},...,q_T^{(k)}\}$ 。对式（24）进一步分解为（25）：
$\hat\lambda:=argmax_\lambda\sum_{k=1}^K\sum_Q\frac{P(O_k,Q|\hat\lambda)}{P(O_k|\hat\lambda)}\log{P(O_k,Q|\lambda)}$
因为式（25）中由于 $P(O_k|\hat\lambda)$ 的值是固定的，因此可以忽略，式（25）则化简为式（26）：
$\hat\lambda:=argmax_\lambda\sum_{k=1}^K\sum_QP(O_k,Q|\hat\lambda)\log{P(O_k,Q|\lambda)}$
式（26）就是我们最终需要优化的表达式，下面我们需要写出在模型参数为 $\lambda$ 时 $O$ 和 $Q$ 的联合概率分布的详细表达式，如式（27），其中式（26）中在 $\hat\lambda$ 时 $O$ 和 $Q$ 的联合概率分布与式（27）一致，只是因为迭代次数的原因参数值不同而已。式（27）中 $i^{t}$ 表示序列 $t$ 时刻的隐状态为 $i$ 。
$P(O,Q|\lambda)=\pi(i^{(1)})b_{i^{(1)}}(o_1)a_{i^{(1)}i^{(2)}}b_{i^{(2)}}(o_2)...a_{i^{(T-1)}i^{(T)}}b_{i^{(T)}}(o_T)$
我们将式（27）进行重写整理，写成式（28）的样子，其中我们暂时忽略了样本集合中样本求和项：
$\begin{aligned} \hat\lambda =&argmax_\lambda\sum_QP(O,Q|\hat\lambda)\log\pi(i^{(1)})\\ &+\sum_Q\bigg(\sum_{t=1}^{T-1}\log{a_{i^{(t)}i^{(t+1)}}}\bigg)P(O,Q|\hat\lambda)+\sum_Q\bigg(\sum_{t=1}^{T}b_{i^{(t)}}(o_t)\bigg)P(O,Q|\hat\lambda) \end{aligned}$

2.2.2 M步

接下来的M步就是对式（28）中的三项分别去极大化，这里使用拉格朗日乘子法来解决有约束条件的情况下求取极值的问题，首先我们对第一项进行求解，我们将第一项写为式（29）所示，其中 $\sum_QP(O,Q|\hat\lambda)$ 被改写为 $\sum_{i=1}^MP(O,i^{(2)}=i|\hat\lambda)$ 是因为在初始状态确定的条件下，我们只要遍历第二个时刻所有的隐状态就好，对于第三个时刻往后的概率计算因为HMM的齐次马尔可夫假设的原因，在不同的初始隐状态下的概率式是一样的，所以对原始第一项的极大化可以化简为式（29）：
$\sum_QP(O,Q|\hat\lambda)\log\pi(i^{(1)})=\sum_{i=1}^MP(O,i^{(2)}=i|\hat\lambda)\log\pi(i)$
考虑到约束条件 $\sum_{i=1}^M\log\pi(i)=1$ ，利用拉格朗日乘子法，我们可以写出拉格朗日函数：
$\sum_{i=1}^MP(O,i^{(2)}=i|\hat\lambda)\log\pi(i)+\gamma\big(\sum_{i=1}^M\pi(i)-1\big)$
对其求偏导并令结果为0：
$\frac{\partial}{\partial\pi(i)}\bigg[\sum_{i=1}^MP(O,i^{(2)}=i|\hat\lambda)\log\pi(i)+\gamma\big(\sum_{i=1}^M\pi(i)-1\big)\bigg]=0$
求偏导并整理可得：
$P(O,i^{(2)}=i|\hat\lambda)+\gamma\pi(i)=0$
对 $i$ 求和可得：
$\gamma=-P(O|\hat\lambda)$
将式（35）带入到式（34）中可得：
$\pi(i)=\frac{P(O,i^{(2)}=i|\hat\lambda)}{P(O|\hat\lambda)}$
式（28）中的第二项可以写为：
$\sum_Q\bigg(\sum_{t=1}^{T-1}\log{a_{i^{(t)}i^{(t+1)}}}\bigg)P(O,Q|\hat\lambda)=\sum_{i=1}^{M}\sum_{j=1}^{M}\sum_{t=1}^{T-1}\log{a_{ij}}P(O,i^{(t)}=i,i^{(t+1)}=j|\hat{\lambda})$
考虑到约束条件 $\sum_{j=1}^{M}a_{ij}=1$ ，我们利用拉格朗日乘子法可得：
$\sum_{i=1}^{M}\sum_{j=1}^{M}\sum_{t=1}^{T-1}\log{a_{ij}}P(O,i^{(t)}=i,i^{(t+1)}=j|\hat{\lambda})+\gamma\big(\sum_{j=1}^{M}a_{ij}-1\big)$
对上式中的 $a_{ij}$ 求偏导：
$P(O,i^{(t)}=i,i^{(t+1)}=j|\hat{\lambda})+a_{ij}\gamma=0$
对 $j$ 求和可得：
$\gamma=-P(O,i^{(t)}=i|\hat{\lambda})$
将式（47）带入式（46）可得：
$a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i^{(t)}=i,i^{(t+1)}=j|\hat{\lambda})}{\sum_{t=1}^{T-1}P(O,i^{(t)}=i|\hat{\lambda})}$
式（28）中的第三项可以写为：
$\sum_Q\bigg(\sum_{t=1}^{T}b_{i^{(t)}}(o_t)\bigg)P(O,Q|\hat\lambda)=\sum_{j=1}^{M}\sum_{t=1}^T\log{b_j(o_t)}P(O,i^{(t)}=j|\hat\lambda)$
考虑到约束条件 $\sum_{n=1}^{N}b_j(n)=1$ ，只有在 $o_t=v_n$ 时 $b_j({o_t})$ 对 $b_j(n)$ 的偏导才不为0，我们以示性函数 $I(o_t=v_n)$ 表示。
$\sum_{j=1}^{M}\sum_{t=1}^T\log{b_j(o_t)}P(O,i^{(t)}=j|\hat\lambda)+\lambda\big(\sum_{n=1}^{M}b_j(n)-1\big)$
对上式中的 $b_j(n)$ 求偏导得：
$P(O,i^{(t)}=j|\hat\lambda)I(o_t=v_n)+\lambda{b_j(n)}=0$
对 $n$ 求和可得：
$\lambda=-P(O,i^{(t)}=j|\hat\lambda)$
将上式带入式（64）中得：
$b_j(n)=\frac{\sum_{t=1}^{T}P(O,i^{(t)}=j|\hat\lambda)I(o_t=v_n)}{\sum_{t=1}^{T}P(O,i^{(t)}=j|\hat\lambda)}$

2.3 公式的重写

从上一节中的推导中我们可以得到以下三个关键的结论性公式：
$\pi(i)=\frac{P(O,i^{(2)}=i|\hat\lambda)}{P(O|\hat\lambda)} \\ a_{ij}=\frac{\sum_{t=1}^{T-1}P(O,i^{(t)}=i,i^{(t+1)}=j|\hat{\lambda})}{\sum_{t=1}^{T-1}P(O,i^{(t)}=i|\hat{\lambda})} \\ b_j(n)=\frac{\sum_{t=1}^{T}P(O,i^{(t)}=j|\hat\lambda)I(o_t=v_n)}{\sum_{t=1}^{T}P(O,i^{(t)}=j|\hat\lambda)}$
我们再次回顾一下第1章中通过前向和后向计算得到的衍生公式：
$\begin{aligned} \gamma_t(i) & =P(q_t=\sigma_i|O,\lambda)=\frac{\alpha_t(i)\beta_t(i)}{\sum_j^M\alpha_t(j)\beta_t(j)} \\ \xi_t(i,j) & =P(q_t=\sigma_i,q_{t+1}=\sigma_j|O,\lambda)=\frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_s^M\sum_r^M\alpha_t(s)a_{sr}b_r(o_{t+1})\beta_{t+1}(r)} \end{aligned}$
因此我们结合推导出来的衍生公式可以将（57）公式集合转换为更加简洁的形式，其中 $a_{ij}$ 和 $b_j(n)$ 的推导中上下分子分母同除 $P(O|\hat{\lambda})$ ：
$\pi(i)=\gamma_2(i) \\ a_{ij}=\frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)} \\ b_j(n)=\frac{\sum_{t=1,o_t=v_n}^{T}\gamma_t(j)}{\sum_{t=1}^{T}\gamma_t(j)}$