反向非归零编码_(宏)基因组编码基因预测

基因预测通过对基因组序列分析识别编码区域,主要方法包括基于序列相似性和从头预测。本文介绍了反向非归零编码在寻找开放阅读框中的应用,并探讨了Prodigal和GeneMark两种预测工具,包括它们的工作原理、适用场景以及在宏基因组研究中的应用。
摘要由CSDN通过智能技术生成
7d1b735766525771b97b51ba3b3d3a2a.gif

基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域。编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequence,CDS),通过在基因组序列上寻找开放阅读框(Open Reading Frame,ORF)实现。

7d1b735766525771b97b51ba3b3d3a2a.gif

ccbcdd7a8c8176eb7cb88c201a10dec5.png

ORF是指从序列5'端的一个起始密码子(ATG)到3'端的一个终止密码子(TTA、TAG、TGA)之间的片段,可以理解为理论上的编码区(不一定所有识别的ORF均是完整的CDS),一般通过计算机进行序列分析得到。当面对一条陌生的DNA序列(尤其是不完整的contigs),由于对其遗传信息完全不清楚,可以有6种方法来尝试解读序列,分别是序列第1、2、3个碱基开始以及反向互补序列的第1、2、3个碱基开始,因此每一个基因有6种框架阅读模式,通常情况下选择中间没有被终止密码子隔开的最大ORF作为基因预测的正确结果。

目前,基因预测的基本方法有2种,基于序列相似性的搜索和基于模式序列特征的从头预测。基于序列相似性的搜索方法思路是将待预测的基因组序列在6种模式的阅读框中进行翻译并与蛋白质数据库中的序列进行比对,如blastx,或者对EST数据库中同一生物的cDNA序列进行比对分析,如blastn,然后确定基因的数目和对应的CDS序列。该方法很依赖于数据库里的数据,对于数据库中没有收录相关基因序列的新物种或者无法确定同源关系的物种,不适用该方法。而且如何界定基因序列的起始、终止位置,尤其真核生物基因的外显子和内含子边界以及筛选比对结果也很重要。

基因的从头预测方法依据人们对已知基因结构特征的认识,如启动子区的TATA box、密码子偏好性等,采用统计学方法,如隐马尔可夫模型、决策树方法、神经网络分析法等,对基因组作基因预测。原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。而真核生物的基因预测

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值