描述进化树的若干基本概念

本文介绍了分子遗传学中的基本概念,如节点、分支、分支长度和分化枝等,详细阐述了系统发育树的重建方法,如基于距离的邻接法、最小进化法以及基于字符的分析技术。自举值在评估进化树可靠性方面的作用也被提及,以及核苷酸替换模型在距离矩阵法中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

结点 (Node):可分为外部结点(叶结点/序列样本)与内部结点(推定的祖先)。分枝 

(Branch):分支/进化枝,即2种及以上的生物或序列组成的进化关系。 

分枝长度 (Branch Length):进化距离/遗传距离/SNP距离/遗传变异度,衡量进化枝变化的程度:越短代表序列差异越小(相似度越高),进化距离也就越近(计算2个序列的遗传距离时,需追溯至它们的最近的共同祖先/MRCA并加和)。可根据分子钟理论转换为时间跨度/时间树,推断序列进化时间的早(先)晚(后),e.g.分析病毒进化树时,对初代病毒产生的时间点的推断。

分化枝 (Clade):由若干成簇的Branch/分枝组成,即具有紧密遗传关系的群体(Grouping)。包括:1个共同祖先及其所有的后代(Living/活着的和Extinct/灭绝的)。 

外群 (Out-group):与所分析的序列相关的生物序列,具有较远的(但又有一定的)亲缘关系,通常作为构树时的对照或验证。

8680569605bfcd344906135851f4acd7.png 

自举值。通过Bootstrap检验,可产生Bootstrap值/自举值/支持值/自展值/自助值,来评估进化树分枝(二分叉)的可信度。该值>70%(有时写为70,即百分数)时可靠,否则其拓扑结构可能有误或不可靠。检验的原理是:根据数据情况选择合适的构树方法和模型后,将序列位点重排,并用完全相同的方法构树;使模型重复计算若干次(e.g.100或1,000),获得若干进化树;计算相同的分枝(二分叉)在重复计算中反复出现的次数或比率。序列相似度高时,低的自举值通常出现在进化树的末端(e.g.单个物种的不同株或个体);否则靠近(Root,即所有分枝的共同祖先)。自举值可标记在结点或分枝上。

a718e9178f7d3b824ce354a20e0c400e.png 

分子遗传进化基本概念 

系统发育(树)的重建方法可以是基于距离的(Distance-based),也可以是基于字符的(Character-based)。

距离矩阵(Distance matrix)法,计算每对序列之间的距离,所得到的距离矩阵用于树的重建。通常有3种:邻接法(Neighbour joining,NJ)、最小进化(Minimum evolution,ME)、最小二乘(Least squares),邻接法最常用。

邻接法vs.最小进化法。NJ法将1种聚类(Cluster)算法应用于距离矩阵,以达到完全解决的系统发育(Fully resolved phylogeny)。

ME法使用了对相同位点的多个命中(Hits)进行校正的距离测量(Distance measures),选择显示出所有分枝的总和(S)的最小值的拓扑(Topology)作为对正确的树的估计。

ME法原则上必须评估所有拓扑的S值,较为耗时,且可能的拓扑(Unrooted/无根树)数量会随分类群(Taxa)数量的增加而迅速增加(此时可使用NJ法)。

NJ树通常与ME树相同,但当分类群的数量很小时,二者之间的差异可能很大(Nei & Kumar, 2000)。在这种情况下,若使用长的DNA/AA序列(如核心基因组/全基因组对齐?),则优选ME树;位点数量较少时,NJ法比ME法更容易生成正确的拓扑结构(Nei et al. 1998, Takahashi & Nei 2000)。

一些软件(如MEGA)提供了近邻交换搜索(Close-neighbor-interchange search)来检查NJ树的邻域,以找到潜在的ME树(见mega4/WebHelp)。 

基于字符的方法,同时比较对齐中的所有序列,每次考虑1个字符(对齐中的1个位置/Site)来计算每1个树的1个得分。包括:最大简约(Maximum parsimony)、最大似然(Maximum likelihood)、贝叶斯推断(Bayesian inference)。核苷酸替换模型(Substitution model)。距离矩阵、最大似然、贝叶斯推断都采用了替换模型,因此是基于模型的;而最大简约法没有明确的(Explicit)模型,其假设是隐式的(Implicit)。 

距离矩阵法中的两两序列距离计算,假设了1个马尔可夫链 (Markov chain)模型的核苷酸替换,例如:(1)JC69模型假设任何2个核苷酸之间的替换比率相等;(2)K80模型假设了不同的转换颠换比率(Transitions>Transversions),以上2种模型都预测了4种核苷酸的相同频率;(3)HKY85模型和GTR (General time reversible,一般时间可逆)模型放宽了相等碱基频率的假设(对于某些菌如Mtb是必要的?其GC~65%);(4)由于局部突变比率和选择性约束(Constraint)的差异,DNA或蛋白序列中的不同位置往往以不同的速率进化。在距离计算中,这种速率差异通过假设位点速率的伽马/Gamma(Γ)分布来适应,从而导致JC69/HKY85/GTR + Γ等模型。 

距离法的优缺点。距离法(特别是NJ法)的1个优点是计算效率。聚类算法是快速的,因其无需像最大简约、最大似然在最优准则下比较那么多树。因此,NJ法对于分析具有低水平序列差异 (即序列之间相似度高,e.g.同1个物种的不同株?那么输入core.alnphylo.aln时有无区别?)的大型数据集是有用的。需注意,使用一个切实可行的替换模型来计算两两距离可能是重要的。缺点:距离法对于非常不一致的序列可能表现得很差,因为大的距离涉及大的抽样误差,且大多数距离法(e.g.邻接法)不能解释大距离估计的高方差。距离法对序列对齐中的间隙(Gaps)也很敏感。 

更多概念、原理 - Molecular phylogenetics: principles and practice【Ziheng Yang & Bruce Rannala】 (e.g.有根树、无根树,各种方法的优缺点、适用范围等) 

Image GP进化树绘制和热图注释

视频 | 如何解读和在线绘制进化树并添加属性注释?

往期精品(点击图片直达文字对应教程)

4e4e1a043b3a5029308690fc318102fd.jpeg

052f415c9b12b854bb8b5f5a256bf15e.jpeg

d27f693aa752919e1913f225afcee06c.jpeg

1cbff574e3caae992e8dcda1af5344a7.jpeg

b5338ea4bb19bf785a39af63adf18245.jpeg

69d5f18cdd470aeff52577fbdf81cf75.jpeg

662c67f4a7627de97b141f8d48063cbd.jpeg

34fd026300aa68cbbeb4479113eac071.jpeg

bdd4f69e54e3dd3019faabf0007bc3da.jpeg

f61f3f177864f7d8fa474a967dcdcc0c.jpeg

17d94c86d8c35216971aebc9b80e4d19.jpeg

ebc9b22612cfcca8d7965a46810f153e.jpeg

c7c1c9ee195783123f15c4added42ded.png

b0fad767322bcf283face5a62e93dc87.png

f00742a16ab39b162e565eb32d4d364d.png

ad98d182babb1003c53bb4dd0d5805e3.png

14cb9bccfb54cedc8c84d66c02efc57e.jpeg

fa9f2c633987233a8e2cf56886d952d9.jpeg

05abccc4fa15197fc0fceb6301b58bf5.jpeg

5debd069af09bd0c43e5aedd5774c637.jpeg

a1e97f32bdac2b8cdf685f371e21fbaa.png

afbc1c1168b2700d0aa2b7d46460b97a.png

3a53389fbd7b24bde61a3b8e7fbf393f.jpeg

764d2a4bfa29c4e6b0768448a1a23aae.png

c6a70ebdbfc091cb21e8d17c6e5708fe.png

70959bf4d8b482e56c4f5af0e29cb490.jpeg

38e1b0ecd12801b1479bc03e0aa6d754.png

95939ce8df8e5f53e07f656f9e104470.png

机器学习

a6a1b9ed639f8c1acc454a8cc5e94504.png

9b9e31d9abe4fa5f2aa41825218bd68b.jpeg

4c42df7c42a43983732aad9443d46762.jpeg

b67e7d2747ab74b094bd304234c5fd56.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值