隐马尔可夫模型在序列比对和基因预测中的应用

最新推荐文章于 2024-08-20 09:00:00 发布

你大佬来啦

最新推荐文章于 2024-08-20 09:00:00 发布

阅读量5.3k

点赞数 10

分类专栏：生信新手分享生信基础知识 jie 文章标签：经验分享动态规划

本文链接：https://blog.csdn.net/keepaware/article/details/107471774

版权

马尔可夫模型由马尔可夫所建立。此模型中，某个事件的发生与其前n个事件的发生有关(比如根据前几天的天气来预测后面的天气)，并且在状态转移间是存在概率的，这种概率可以根据事件发生情况被推算出来。用公式可以表示为P(x_t | x₁…x_t-1) = P(x_i | x_t-n…x_t-1)，其中n为阶数，一阶则代表每个事件都只与上一个事件的发生有关。

隐马尔可夫模型之所以称为“隐”，是因为在我们可以观测到的符号（在序列比对中即为各种碱基或者氨基酸等）背后还有一种不能被观察到的状态（例如序列比对中的匹配状态和对上空位的状态）。每个状态都有自己的生成概率及状态间的转换概率（匹配与空位间的转换），这些概率可以从观察到的符号序列推算出来并作为其它用途（如基因预测）。

文章目录

- 1.在序列比对中的应用
- 2.在基因预测中的作用

1.在序列比对中的应用

由于在马尔可夫模型中能够根据某事件之前的事件预测当前发生的各种事件的概率，将此一阶模型引入序列比对时，引入事件发生概率如图：
其中z表示从匹配状态到引入空位的概率，w表示某个链进行空位延伸的概率，根据这两个概率即可计算剩下各事件的概率及序列比对的概率。如P(XMYM) = P(X→M)×P(M→Y)×P(Y→M) = (1-w)×z×(1-w)，但是此式子只考虑了各种状态间的转换概率，并未考虑各状态出现的概率（即各种状态在基因链中出现的概率），因此若加上生成概率的话，就应该变为P(XMYM) = P_(X)×P_(X→M)×P_(M)×P_(M→Y)×P_(Y)×P_(Y→M)×P_(M)，其中P_(X)、P_(M)、P_(Y)即为各种状态出现的生成概率。因此根据上图还可以将序列比对结果的概率公式列为： $P_M (i,j) = P(x,y)×max\left\{ \begin{array}{c} (1-2z)×P_M(i-1,j-1) \\ (1-w)×P_X(i-1,j-1) \\ (1-w)×P_Y(i-1,j-1)\end{array}\right.$

最低0.47元/天解锁文章