【10.1算法理论部分（3）学习问题（Baum-Welch算法）】Hidden Markov Algorithm——李航《统计学习方法》公式推导

本文链接：https://blog.csdn.net/qq_35238626/article/details/128499912

10.3学习问题（解决Learining： $\lambda_{MLE} = argmax_{\lambda}P(O|\lambda)$ ）

10.3.1 监督学习方法

假设已给出训练数据包含 S 个长度相同的观测序列和对应的状态序列 ${(O_{1},I_{1}),(O_{2},I_{2}), \cdot \cdot \cdot ,(O_{T},I_{T})}$ ，那么可以利用极大似然估计法来估计隐马尔可夫模型的参数，具体方法如下：

转移概率 $a_{ij}$ 的估计：
$a_{ij} = \frac{A_{ij}}{\sum_{j=1}^{N}A_{ij}}----(10.30)$
其中， $A_{ij}$ 为样本中时刻 t 处于状态 $q_{i}$ 而到时刻t+1转移到状态 $q_{j}$ 的频数；
观测概率 $b_{j}(k)$ 的估计：
$b_{jk} = \frac{B_{jk}}{\sum_{k=1}^{M}A_{jk}}----(10.31)$
其中， $B_{jk}$ 为样本中状态为 $q_{j}$ ，其对应观测为 $v_{k}$ 的频数；
初始状态概率 $\pi_{i}$ 的估计为 S 个样本中初始状态为 $q_{i}$ 的频率。

显然此训练数据中的状态序列数据通常是需要人工标注出来的，因此代价较高，所以非监督学习的方法更为实用，例如Baum-Welch算法。

10.3.2 Baum-Welch算法

如果只有观测序列数据 $(o_{1},o_{2}, \cdot \cdot \cdot,o_{T})$ ，而没有状态序列数据 $(s_{1},s_{2}, \cdot \cdot \cdot,s_{T})$ ，那么隐马尔可夫模型就是一个含有隐变量的概率模型：
$\sum_{S}P(O|S,\lambda)P(S|\lambda)----(10.32)$
如果要对它进行参数估计，则可以采用EM算法来实现，具体步骤如下：

确定完全数据的对数似然函数
此时观测数据为 $(o_{1},o_{2}, \cdot \cdot \cdot,o_{T})$ ，未观测数据为 $(s_{1},s_{2}, \cdot \cdot \cdot,s_{T})$ ，则完全数据为 $(o_{1},o_{2}, \cdot \cdot \cdot,o_{T},s_{1},s_{2}, \cdot \cdot \cdot,s_{T})$ ，完全数据的对数似然函数为：
$logP(O,S|\lambda)$
其中， $P(O,S|\lambda) = \pi_{s_{1}}b_{s_{1}}(o_{1})a_{s_{1}s_{2}}b_{s_{2}}(o_{2}) \cdot \cdot \cdot a_{s_{T-1}s_{T}}b_{s_{T}}(o_{T})$ ，所以可以进一步推得：
$logP(O,S|\lambda)$
$log(\pi_{s_{1}}b_{s_{1}}(o_{1})a_{s_{1}s_{2}}b_{s_{2}}(o_{2}) \cdot \cdot \cdot a_{s_{T-1}s_{T}}b_{s_{T}}(o_{T}))$
$log\pi_{s_{1}} + \sum_{t =1}^{T-1}lna_{s_{t}s_{t+1}} + \sum_{t=1}^{T}logb_{s_{t}}(o_{t})----(10.33*)$
EM算法E步：求Q函数 $Q(\lambda,\lambda^{(t)})$
$Q(\lambda,\lambda^{(t)}) = \sum_{S}P(O,S|\lambda^{(t)})logP(O,S|\lambda)----(10.33)$
其中， $\lambda^{(t)}$ 是隐马尔可夫模型参数的当前估计值，λ 是要极大化的隐马尔可夫模型参数。为了便于后续计算，Q 函数还可以作如下恒等变形，将(10.33*)代入：
$Q(\lambda,\lambda^{(t)})= \sum_{S}P(O,S|\lambda^{(t)})log\pi_{s_{1}} + \sum_{S}P(O,S|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{s_{t}s_{t+1}} + \sum_{S}P(O,S|\lambda^{(t)})\sum_{t=1}^{T}logb_{s_{t}}(o_{t})----(10.34)$
EM算法的M步：极大化Q函数 $Q(\lambda,\lambda^{(t)})$ 求模型参数 $A,B,\pi$
（1）只有式（10.34）的第1项含有 $\pi_{s_{i}}$ ,根据第一项对参数 $\pi$ 进行求最大化，更新 $\pi$ 的值，具体推导如下：
$\pi^{(t+1)} = argmax_{\pi}Q(\lambda,\lambda^{(t)})$
$argmax_{\pi}\sum_{S}P(O,S|\lambda^{(t)})log\pi_{s_{1}}$
$argmax_{\pi}\sum_{q_{1}}\sum_{q_{2}} \cdot \cdot \cdot \sum_{q_{T}}P(O,s_{1},s_{2},\cdot \cdot \cdot ,s_{T},|\lambda^{(t)})log\pi_{s_{1}}$
$argmax_{\pi}\sum_{q_{1}}P(O,s_{1}|\lambda^{(t)})log\pi_{s_{1}}$
$argmax_{\pi}\sum_{i=1}^{N}P(O,s_{1} = q_{i}|\lambda^{(t)})log\pi_{i}$
(这里隐含了一个约束 $\sum_{i=1}^{N}\pi_{i} = 1$ )
利用拉格朗日乘子法，进行后续计算，先构造 $\delta(\pi,\eta_{1})$ ：
$\delta(\pi,\eta) = \sum_{i=1}^{N}P(O,s_{1} = q_{i}|\lambda^{(t)})log\pi_{i} + \eta_{1}(\sum_{i=1}^{N}\pi - 1)$
对 $\pi_{i}$ 求偏导，令其为0：
$\frac{\partial \delta}{\partial \pi_{i}} = \frac{1}{\pi_{i}}P(O,s_{1} = q_{i}|\lambda^{(t)}) + \eta_{1} = 0----(10.35)$
$P(O,s_{1} = q_{i}|\lambda^{(t)}) + \eta_{1} \pi_{i} = 0$
因为 $\sum_{i=1}^{N}\pi_{i} = 1$ ，对两边求和：
$\sum_{i=1}^{N} \left[ P(O,s_{1} = q_{i}|\lambda^{(t)}) + \eta_{1} \pi_{i} \right ] = 0$
$\sum_{i=1}^{N}P(O,s_{1} = q_{i}|\lambda^{(t)}) + \sum_{i=1}^{N}\eta_{1} \pi_{i} = 0$
$P(O|\lambda^{(t)}) + \eta_{1} = 0$
$\eta_{1} = -P(O|\lambda^{(t)})----(10.35*)$
将(10.35*)代入(10.35)：
$\frac{1}{\pi_{i}}P(O,s_{1} = q_{i}|\lambda^{(t)}) - P(O|\lambda^{(t)}) = 0$
$\pi_{i} = \frac{P(O,s_{1} = q_{i}|\lambda^{(t)})}{P(O|\lambda^{(t)})}----(10.36)$
由于 $\pi^{(t+1)} = argmax_{\pi}Q(\lambda,\lambda^{(t)})$ ，所以得到更新后的 $\pi^{(t+1)}$ ：
$\pi^{(t+1)} = \frac{P(O,s_{1} = q_{i}|\lambda^{(t)})}{P(O|\lambda^{(t)})}$
最终更新得到整个初始概率向量 $\pi$ ：
$\pi^{(t+1)} = (\pi_{1}^{(t+1)},\pi_{2}^{(t+1)}, \cdot \cdot \cdot ,\pi_{N}^{(t+1)})$

（2）只有式（10.34）的第2项含有 $a_{ij}$ ,根据第二项对参数 $a_{ij}$ 进行求最大化，更新 $a_{ij}$ 的值，具体推导如下：
$a_{ij}^{t+1} = argmax_{a_{ij}}Q(\lambda,\lambda^{(t)})$
$argmax_{a_{ij}}\sum_{S}P(O,S|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{s_{t}s_{t+1}}$
$argmax_{a_{ij}}\sum_{q_{1}}\sum_{q_{2}} \cdot \cdot \cdot \sum_{q_{T}}P(O,s_{1},s_{2} ,\cdot \cdot \cdot ,s_{T}|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{s_{t}s_{t+1}}$
$argmax_{a_{ij}}\sum_{q_{t}}\sum_{q_{t+1}} P(O,s_{t},s_{t+1}|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{s_{t}s_{t+1}}$
$argmax_{a_{ij}}\sum_{i=1}^{N}\sum_{j=1}^{N}\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{ij}$
(这里隐含了一个约束 $\sum_{i=1}^{N} a_{ij} = 1$ )
利用拉格朗日乘子法，进行后续计算，先构造 $\delta(a_{ij},\eta_{2})$ ：
$\delta(a_{ij},\eta) = \sum_{i=1}^{N}\sum_{j=1}^{N}\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) \sum_{t=1}^{T-1}loga_{ij} + \eta_{2}(\sum_{i=1}^{N} a_{ij} - 1)$
对 $a_{ij}$ 求偏导，令其为0：
$\frac{\partial \delta}{\partial a_{ij}} = \frac{1}{a_{ij}}\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) + \eta_{2} = 0----(10.37)$
$\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) + \eta_{2} a_{ij} = 0$
因为 $\sum_{j=1}^{N}a_{ij} = 1$ ，对两边求和：
$\sum_{j=1}^{N} \left[ \sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) + \eta_{2} a_{ij} \right ] = 0$
$\sum_{j=1}^{N}\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) + \sum_{j=1}^{N}\eta_{2} a_{ij} = 0$
$\sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)} )+ \eta_{2} = 0$
$\eta_{2} = -\sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)})----(10.37*)$
将(10.37*)代入(10.37)：
$\frac{1}{a_{ij}}\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)}) = \sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)})$
$a_{ij} = \frac{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)})}{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)})}$
由于 $a_{ij}^{(t+1)} = argmax_{a_{ij}}Q(\lambda,\lambda^{(t)})$ ，所以得到更新后的 $a_{ij}^{(t+1)}$ ：
$a_{ij}^{(t+1)} = \frac{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)})}{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)})}$
最终更新得到整个状态转移矩阵 A：
$A^{(t+1)} = \left \{ a_{ij}^{(t+1)} \right \}_{N*N}$

（3）只有式（10.34）的第3项含有 $b_{j}(k)$ ,根据第三项对参数 $b_{j}(k)$ 进行求最大化，更新 $b_{j}(k)$ 的值，具体推导如下：
$b_{j}(k)^{(t+1)} = argmax_{b_{j}(k)}Q(\lambda,\lambda^{(t)})$
$argmax_{b_{j}(k)}\sum_{S}P(O,S|\lambda^{(t)})\sum_{t=1}^{T}logb_{s_{t}}(o_{t})$
$argmax_{b_{j}(k)}\sum_{q_{1}}\sum_{q_{2}} \cdot \cdot \cdot \sum_{q_{T}}P(O,s_{1},s_{2},\cdot \cdot \cdot ,s_{T}|\lambda^{(t)}) \sum_{t=1}^{T-1}logb_{s_{t}}(o_{t})$
$argmax_{b_{j}(k)}\sum_{q_{j}} P(O,s_{t}|\lambda^{(t)}) \sum_{t=1}^{T-1}logb_{s_{t}}(o_{t})$
$argmax_{b_{j}(k)}\sum_{j=1}^{N}\sum_{t=1}^{T} P(O,s_{t} = q_{j}|\lambda^{(t)})logb_{s_{t}}(o_{t})----(10.38*)$
写到这你可能有疑问，就是明明在推导 $b_{j}(k)$ ，但是现在就只有 $b_{s_{t}}(o_{t})$ ，k在哪呢？
其实这里可以考虑一个问题，就是说因为观测序列是给定的，所以只有一个观测是正确的，也就是说 $o_{t}$ 是给定的，但是对于一个时刻下处于摸一个状态可以观测的所有观测值的概率和为 1，也就是说 $\sum_{k=1}^{M}b_{s_{t}}(k)$ ,这里就要引入一个指示函数 $I(o_{t} = v_{k})$ ，这里只有在 $o_{t} = v_{k}$ 的时候 $I(o_{t} = v_{k}) = 1$ ，其他情况 $I(o_{t} = v_{k}) = 0$ ，所以这个时候可以把 $b_{s_{t}}(o_{t})$ 换成 $b_{j}(k)I(o_{t} = v_{k})$ （这里状态 $s_{t}$ 换成状态 $q_{j}$ ；剩下的状态可以用指示函数替换，这里要停下来好好想一下），这样再看(10.38*)，就可以改成以下形式:
$b_{j}(k)^{(t+1)} = argmax_{b_{j}(k)}\sum_{j=1}^{N}\sum_{t=1}^{T} P(O,s_{t} = q_{j}|\lambda^{(t)})logb_{j}(k)I(o_{t} = v_{k})----(10.38**)$
(现在就可以加入这个约束 $\sum_{k=1}^{M} b_{j}(k) = 1$ )
利用拉格朗日乘子法，进行后续计算，先构造 $\delta(b_{j}(k),\eta_{3})$ ：
$\delta(b_{j}(k),\eta) = \sum_{j=1}^{N}\sum_{t=1}^{T} P(O,s_{t} = q_{j}|\lambda^{(t)})logb_{j}(k)I(o_{t} = v_{k}) + \eta_{3}(\sum_{i=1}^{N} b_{j}(k) - 1)$
对 $b_{j}(k)$ 求偏导，令其为0：
$\frac{\partial \delta}{\partial b_{j}(k)} = \frac{1}{b_{j}(k)} \sum_{j=1}^{N}\sum_{t=1}^{T} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k}) + \eta_{3} = 0----(10.38)$
$\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)}) + \eta_{3} b_{j}(k) = 0$
因为 $\sum_{j=1}^{N}b_{j}(k) = 1$ ，对两边求和：
$\sum_{k=1}^{M} \left[ \sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k}) + \eta_{3} b_{j}(k) \right ] = 0$
$\sum_{k=1}^{M}\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k}) + \sum_{j=1}^{N}\eta_{3} b_{j}(k) = 0$
$\sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )+ \eta_{3} = 0$
$\eta_{3} = -\sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )----(10.38***)$
将(10.38***)代入(10.38)：
$\frac{1}{b_{j}(k)}\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k}) = \sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )$
$b_{j}(k) = \frac{\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k})}{\sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )}$
由于 $b_{j}(k)^{(t+1)} = argmax_{b_{j}(k)}Q(\lambda,\lambda^{(t)})$ ，所以得到更新后的 $b_{j}(k)^{(t+1)}$ ：
$b_{j}(k)^{(t+1)} = \frac{\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k})}{\sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )}$
最终更新得到整个观测概率矩阵 B：
$B_{j}^{(t+1)}(k) = \left \{ b_{j}^{(t+1)}(k) \right \}_{N*M}$

10.3.3Baum-Welch模型模型参数估计公式

将式(10.36)~式(10.38)中的各概率分别用 $\gamma_{t}(i),\xi_{t}(i,j)$ 表示，则可将相应的公式写成：
（1）对于 $a_{ij}$ ：
$a_{ij} = \frac{\sum_{t=1}^{T-1}\xi_{t}(i,j)}{\sum_{t=1}^{T-1}\gamma_{t}(i)}-----(10.39)$
$a_{ij} = \frac{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)})}{\sum_{t=1}^{T-1} P(O,s_{t} = q_{i}|\lambda^{(t)})}-----(10.39*)$
(10.39*)是给(10.39)用作对比参考

（2）对于 $b_{j}(k)$ ：
$b_{j}(k) = \frac{\sum_{t=1,o_{t}=v_{k}}^{T}\gamma_{t}(j)}{\sum_{t=1}^{T}\gamma_{t}(j)}----(10.40)$
$b_{j}(k)^{(t+1)} = \frac{\sum_{j=1}^{N} P(O,s_{t} = q_{j}|\lambda^{(t)})I(o_{t} = v_{k})}{\sum_{j=1}^{N} P(O,s_{t} = q_{i}|\lambda^{(t)} )}----(10.40*)$
(10.40*)是给(10.40)用作对比参考

（3）对于 $\pi_{i}$ ：
$\pi_{i} = \gamma_{1}(i)----(10.41)$
$\pi_{i} = \frac{P(O,s_{1} = q_{i}|\lambda^{(t)})}{P(O|\lambda^{(t)})}----(10.41*)$
(10.41*)是给(10.41)用作对比参考

（4）对 $\gamma_{t}(i)$ 和 $\xi_{t}(i,j)$ 做一个总结：
$\gamma_{t}(i) = \frac{P(O,s_{t} = q_{i}|\lambda^{(t)})}{P(O|\lambda^{(t)})}$
$\xi_{t}(i,j) = \frac{P(O,s_{t} = q_{i},s_{t+1} = q_{j}|\lambda^{(t)})}{P(O|\lambda^{(t)})}$
这才是 $\gamma_{t}(i)$ 和 $\xi_{t}(i,j)$ 真正的样子

算法10.4（Baum-Welch算法）
输入：观测数据 $(o_{1},o_{2},\cdot \cdot \cdot,o_{T})$
输出：HMM的模型参数 $\lambda$
（1）初始化。对n = 0，选取 $a_{ij}^{(0)},b_{j}(k)^{(0)},\pi_{i}^{(0)}$ ,得到模型 $\lambda^{(0)} = (A^{(0)},B^{(0)},\pi^{(0)})$ .
（2）递推。对 $\cdot \cdot \cdot ,$
$a_{ij}^{(n+1)} = \frac{\sum_{t=1}^{T-1}\xi_{t}(i,j)}{\sum_{t=1}^{T-1}\gamma_{t}(i)}$
$b_{j}(k)^{(n+1)} = \frac{\sum_{t=1,o_{t}=v_{k}}^{T}\gamma_{t}(j)}{\sum_{t+1}^{T}\gamma_{t}(j)}$
$\pi_{i}^{(t+1)} = \gamma_{1}(i)$
（3）终止。得到模型参数 $\lambda^{(n+1)} = (a_{ij}^{(n+1)},b_{j}(k)^{(n+1)},\pi_{i}^{(n+1)})$ .

参考文献

以下是HMM系列文章的参考文献：

李航——《统计学习方法》
YouTube——shuhuai008的视频课程HMM
YouTube——徐亦达机器学习HMM、EM
*[https://www.huaxiaozhuan.com/%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0/chapters/15_HMM.html]：隐马尔可夫模型
[https://sm1les.com/2019/04/10/hidden-markov-model/]：隐马尔可夫模型（HMM）及其三个基本问题
例子可以看这个[https://www.cnblogs.com/skyme/p/4651331.html]：一文搞懂HMM（隐马尔可夫模型）
[https://www.zhihu.com/question/55974064]：南屏晚钟的解答

感谢以上作者对本文的贡献，如有侵权联系后删除相应内容。