进化树的构建
(1)数据准备
目前,构建生命之树常用的数据包括形态数据和分子数据。
形态数据主要通过对形态性状编码来获取;
分子数据主要通过公共数据库GeBank下载或实验获取。选择合适的DNA片段对系统发育关系重建至关重要。如果所选基因的进化速率太慢,提供的系统发育信息不足, 系统发育关系可能得不到很好的解决;如果所选基因的进化速率太快,正确的系统发育信息常常会被大量的非同源相似信号淹没。
(2)序列拼接
为了提高序列的准确性, 往往需要对所测正反向序列进行拼接和校正, 常用的拼接软件有Contig Express、Geneious (created by Biomatters, available at http://www.geneious.com)、Sequencher等。
(3)序列比对
为了保证序列的同源性和所得系统发育关系的可靠性,需要对原始序列进行比对和校正。自动比对序列的软件包括Clustal 、MAFFT、MUSCLE等; 手工校对序列的软件有BioEdit 、Se-Al 、Geneious (http://www.geneious.com)等。
(4)校正有争议的位点
保守区选择是系统发育分析过程中一个重要的步骤,对于信息位点足够多的建树序列,该步骤更是必不可少。常用的软件为Gblock、MEME。
进化分析时可以选择保守位点,也可以选择基因全长序列,但是当序列差异大时,建议选择保守序列分析。
(5)模型选择
a) 决定替代模型
替代模型既影响比对,也影响建树,因此需要采用递归方法。
对于核酸数据而言,可以通过替代模型中的两个要素进行计算机评估,但是对于氨基酸和密码子数据而言,没有什么评估方案。
其中一个要素是碱基之间相互替代的模型,另外一个要素是序列中不同位点的所有替代的相对速率。
还没有一种简单的计算机程序可以对较复杂的变量(比如,位点特异性或者系统特异性替代模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。
(1)碱基取代模型。
一般而言,生物化学性质相近的碱基之间的取代频率较高。在DNA中,四种转换(A→G,G→A,C→T,T→C)的频率比颠换(A→C,A→T,C→G,G→T)以及它们的反向取代的频率要高。这些偏向会影响两个序列之间的预计分歧。
各残基之间的相对取代速率一般用矩阵形式给出:对碱基而言,行和列都是4,对于氨基酸,行和列都是20(如PAM矩阵);对于密码子,行和列都是61(除去终止密码子)。矩阵中对角元素代表不同序列拥有相同碱基的代价,非对角线元