源自:http://www.bbioo.com/lifesciences/40-114214-1.html
1. 基因数目预测的主流软件
GENSCAN就是一个经典的基因预测软件。1996年由MIT的Chris Burge开始编写这个软件程序。当时,Burge的许多同事主张采用比较的方法,他们随机选取一个最新测序基因组中基因的DNA序列,与数据库中已存在的基因进行联配。但是Chris Burge认为:“利用人类基因组所获知的信息,可能不能发现某些新的基因。” 他还积极吸取了加州大学计算机研究人员David Haussler的经验。很多年前,Haussler就意识到基因预测的问题与语言学家们所遇到的问题相类似。语言学家总是试图寻找语言中句法、语法,以及其它某些特征。Haussler和其他人都建议从语言学中借助一种叫做Hidden Markov Model, HMM隐马尔科夫模型的统计工具。在序列分析中,HMM通常是多重序列对位排列的概率模型,但也可用于单一序列的周期性模式的模型,比如代表发现基因外显子的模式。在一个多重序列对位排列的模型中,用被称作状态的符号的概率分布代表排列中的每一列字母,插入和缺失用其他状态表示。然后在模型内沿特定的路径从一个状态进入另一个状态,试图匹配一条给定的序列。从每一状态选出下一个匹配符号,记录其概率(频率)和从前一状态进入特定状态的概率(过渡态概率)。状态与过渡态的概率相乘就得到给定序列的概率。一般来说,HMM是一个对给定字符的统计模型,类似随机状态机器,从每一个状态过渡到另一个就产生一个字符。状态间的过渡态用过渡概率确定。HMM已成为许多基因预测算法的标准。Burge指出:目前存在一整套的能够区分部分基因的模式和规则。比如,几乎所有的基因在起始和终止区域存在特异的序列。外显子的末端通常也存在一个特征序列,可以指导相关的酶切除外显子下游的内含子。Burge已经利用这些规则分析了几百个已知外显子和内含子位置的基因序列。
GENSCAN是进行基因预测的首选工具。但是,即使最好的预测软件也存在不足之处。GENSCAN就过分估算了基因数目。它的预测结果是人类基因组中有45,000个基因,相当于现在普遍认可数目的两倍。Burge承认GENSCAN确实存在问题,但他认为太多的基因总比太少要好。对于过剩的预测,用户可以积极去除假阳性的结果。Burge称:GENSCAN可能不能预测基因的准确数目,但从人类和其它物种的基因数据分析中所得到的新的序列,可以进一步完善GENSCAN。他还指出,如果能继续开展基因的探寻工作,他会更倾向于选用比较学的方法。
其他程序,如GeneSweep、Ensembl/Genewise,则是基于对数据进行组装来寻找基因。但是它们比早期的比较学方法更为成熟。Genewise是Birney和他的同事,