figtree如何编辑进化树_进化树构建的方法原理及检验-CSDN博客

本文链接：https://blog.csdn.net/weixin_28852151/article/details/113071799

本文详细介绍了进化树构建的过程，包括数据准备、序列拼接、序列比对、校正有争议的位点、模型选择、建树方法及树的显示与美化。强调了模型选择的重要性，如碱基取代模型、位点速率模型，并提到了常见的建树方法如MP法、ML法和BI法，以及Bootstrap检验在验证树的可靠性中的作用。

摘要由CSDN通过智能技术生成

进化树的构建

(1)数据准备

目前，构建生命之树常用的数据包括形态数据和分子数据。

形态数据主要通过对形态性状编码来获取；

分子数据主要通过公共数据库GeBank下载或实验获取。选择合适的DNA片段对系统发育关系重建至关重要。如果所选基因的进化速率太慢，提供的系统发育信息不足, 系统发育关系可能得不到很好的解决；如果所选基因的进化速率太快，正确的系统发育信息常常会被大量的非同源相似信号淹没。

(2)序列拼接

为了提高序列的准确性, 往往需要对所测正反向序列进行拼接和校正, 常用的拼接软件有Contig Express、Geneious (created by Biomatters, available at http://www.geneious.com)、Sequencher等。

(3)序列比对

为了保证序列的同源性和所得系统发育关系的可靠性，需要对原始序列进行比对和校正。自动比对序列的软件包括Clustal 、MAFFT、MUSCLE等; 手工校对序列的软件有BioEdit 、Se-Al 、Geneious (http://www.geneious.com)等。

(4)校正有争议的位点

保守区选择是系统发育分析过程中一个重要的步骤，对于信息位点足够多的建树序列，该步骤更是必不可少。常用的软件为Gblock、MEME。

进化分析时可以选择保守位点，也可以选择基因全长序列，但是当序列差异大时，建议选择保守序列分析。

(5)模型选择

a) 决定替代模型

替代模型既影响比对，也影响建树，因此需要采用递归方法。

对于核酸数据而言，可以通过替代模型中的两个要素进行计算机评估，但是对于氨基酸和密码子数据而言，没有什么评估方案。

其中一个要素是碱基之间相互替代的模型，另外一个要素是序列中不同位点的所有替代的相对速率。

还没有一种简单的计算机程序可以对较复杂的变量(比如，位点特异性或者系统特异性替代模型)进行评估，同样，现有的建树软件也不可能理解这些复杂变量。

(1)碱基取代模型。

一般而言，生物化学性质相近的碱基之间的取代频率较高。在DNA中，四种转换(A→G，G→A,C→T,T→C)的频率比颠换(A→C,A→T,C→G，G→T)以及它们的反向取代的频率要高。这些偏向会影响两个序列之间的预计分歧。

各残基之间的相对取代速率一般用矩阵形式给出：对碱基而言，行和列都是4，对于氨基酸，行和列都是20(如PAM矩阵)；对于密码子，行和列都是61(除去终止密码子)。矩阵中对角元素代表不同序列拥有相同碱基的代价，非对角线元