北京大学生物信息学学习(6)隐含马尔可夫模型
马尔可夫链(时间和状态都离散的状态组合)
https://www.bilibili.com/video/BV13t411G7oh?p=14
隐含马尔可夫模的例子
状态路径和符号路径
给定一个基因序列,来预测基因的编码和非编码区(编码和非编码为不可见的状态)
在这个过程中,需要转移概率矩阵(即状态转移的一个概率矩阵)
需要生成概率,在此处也就是(在编码条件下和非编码条件下,AT,G,C出现的概率,这个需要根据大量的统计数据集进行统计分析或者预测分析)
需要训练集,一个已知注释过的编码和非编码注释过的数据集,需要一个长的数据集,来得到上面矩阵中的数据即编码和非编码的概率以及在编码和非编码的情况下的A,T,C,G的概率。
那么经过上述的训练数据集得到了上述的两个矩阵,那么接下来,通过模型构建,我们来预测未知的序列是编码和非编码区的概率。
在此,为了避免数据太小产生的数据下溢,所以老师对数据进行log 转化,以下是计算数据的一个转移的状态矩阵,首先假设从非编码状态开始n的取值是0.2和0.8 的一个log 转换,因此乘法运算再次转换成了加法运算。
对于上述的隐含马尔可夫模型的例子
Example 1
女盆友的状态 开心or 不开心
行为 Kiss、Beat、Do nothing
对于每一个状态之间的转换之和为1
那么根据第三天女盆友的状态Do nothing 来猜测女盆友的状态,开心or 不开心????
Example2 5'剪切位点的识别
输出的状态 外显子E 5识别位点, 内含子I
Example 3 Coding region 的预测,基于起始密码子ATG 和终止密码子TAA 的计算方法。
Example 4 原核生物的基因的定义
Example5 真核生物的基因
Example6真核基因2
Example7 天气和水藻的状态
隐含马尔可夫模型的评估的方法 前向算法和反向算法 维特比算法和BW 算法
Example8 利用HMM模型来寻找CNV
CNV 的明确定义
转移矩阵
2个生成矩阵