基因预测是指通过对组装的基因组序列进行分析,根据已知生物的基因结构知识或数据库序列来识别其所包含的基因等功能区域。编码基因预测,就是识别基因组序列上所包含的蛋白质编码区域(Coding sequence,CDS),通过在基因组序列上寻找开放阅读框(Open Reading Frame,ORF)实现。
ORF是指从序列5'端的一个起始密码子(ATG)到3'端的一个终止密码子(TTA、TAG、TGA)之间的片段,可以理解为理论上的编码区(不一定所有识别的ORF均是完整的CDS),一般通过计算机进行序列分析得到。当面对一条陌生的DNA序列(尤其是不完整的contigs),由于对其遗传信息完全不清楚,可以有6种方法来尝试解读序列,分别是序列第1、2、3个碱基开始以及反向互补序列的第1、2、3个碱基开始,因此每一个基因有6种框架阅读模式,通常情况下选择中间没有被终止密码子隔开的最大ORF作为基因预测的正确结果。
目前,基因预测的基本方法有2种,基于序列相似性的搜索和基于模式序列特征的从头预测。基于序列相似性的搜索方法思路是将待预测的基因组序列在6种模式的阅读框中进行翻译并与蛋白质数据库中的序列进行比对,如blastx,或者对EST数据库中同一生物的cDNA序列进行比对分析,如blastn,然后确定基因的数目和对应的CDS序列。该方法很依赖于数据库里的数据,对于数据库中没有收录相关基因序列的新物种或者无法确定同源关系的物种,不适用该方法。而且如何界定基因序列的起始、终止位置,尤其真核生物基因的外显子和内含子边界以及筛选比对结果也很重要。
基因的从头预测方法依据人们对已知基因结构特征的认识,如启动子区的TATA box、密码子偏好性等,采用统计学方法,如隐马尔可夫模型、决策树方法、神经网络分析法等,对基因组作基因预测。原核生物基因的各种信号位点(如启动子和终止子信号位点)特异性较强且容易识别,因此相应的基因预测方法已经基本成熟。而真核生物的基因预测