序列比对(十六)——Baum-Welch算法估算HMM参数

最新推荐文章于 2024-07-16 08:00:08 发布

生信了（公众号同名）

最新推荐文章于 2024-07-16 08:00:08 发布

阅读量1.9k

点赞数 2

分类专栏： # 序列算法文章标签：算法生物信息序列比对 Baum-Welch

本文链接：https://blog.csdn.net/biocity/article/details/97501262

版权

本文详细介绍了如何使用Baum-Welch算法来估算隐马尔科夫模型（HMM）的概率参数。通过C代码展示了算法在不同序列长度下的效果，强调了算法依赖于初始值设定，可能导致局部最优解。文中还提供了相关公式的推导和计算过程。

摘要由CSDN通过智能技术生成

原创：hxj7

本文介绍了如何用Baum-Welch算法来估算HMM模型中的概率参数。

Baum-Welch算法应用于HMM的效果

前文《序列比对（15）EM算法以及Baum-Welch算法的推导》介绍了EM算法和Baum-Welch算法的推导过程。Baum-Welch算法是EM算法的一个特例，用来估算HMM模型中的概率参数。其具体步骤如下：
在这里插入图片描述

图片引自《生物序列分析》

本文给出了Baum-Welch算法的C代码，还是以投骰子为例，估算出了转移概率以及发射概率。

具体效果如图：
（下面几张图中的 Real 表示真实的转移概率以及发射概率，而Baum-Welch表示用Baum-Welch算法估算的转移概率以及发射概率。）
首先是当若干条序列总长度为300时：
在这里插入图片描述

然后是当若干条序列总长度为30000时：

可以看出总长度为30000时已经很接近真实值了。但是，Baum-Welch算法的结果时一个局部最优值，很依赖初始值的设定。所以，当初始值不同时，也有可能会出现这种结果：
在这里插入图片描述

小结一下：

Baum-Welch算法通过多次迭代来估算HMM模型中的概率参数。
本文代码设定了迭代的终止条件：当“归一化后的平均对数似然”的变化小于预先设定的阈值时或者迭代次数超出最大迭代次数时，迭代终止。
Baum-Welch算法的最终结果非常依赖初始值的设定。
本文代码中的初始值是随机值。
在计算期望次数时，使用了伪计数。

代码中所用公式及其推导

其中的 $A_{kl}$ 指的是 $a_{kl}$ 在所有训练序列中出现的期望次数，而 $E_k(b)$ 指的是 $e_k(b)$ 在所有训练序列中出现的期望次数。用符号表示就是（其中 $x^j$ 表示第j条符号序列）：
$\begin{aligned} \displaystyle A_{kl} & = \sum_{j} \sum_{\pi} P(\pi^j|x^j,\theta) A_{kl}(\pi^j) \\ & = \sum_{j} \sum_i P(\pi_i^j=k, \pi_{i+1}^j=l|x^j,\theta) \tag{1.1} \end{aligned}$
$\begin{aligned} \displaystyle E_k(b) & = \sum_j \sum_\pi P(\pi^j|x^j, \theta) E_k(b, \pi^j) \\ & = \sum_{j} \sum_i P(\pi_i^j=k, x_i^j=b|x^j,\theta) \\ & = \sum_{j} \sum_{\{i|x_i^j=b\}} P(\pi_i^j=k|x^j,\theta) \tag{1.2} \end{aligned}$

我们可以推导出，对某一条序列 $x^j$ 有如下结论：
$P(\pi_i=k, \pi_{i+1}=l|x,\theta) = \tilde{f}_k(i) a_{kl} e_l(x_{i+1}) \tilde{b}_l(i+1) \tag{2.1}$
$P(\pi_i=k|x,\theta) = \tilde{f}_k(i) \tilde{b}_k(i) s_i \tag{2.2}$