基本概念
分子进化
利用软件,从分子水平(DNA、RNA、蛋白质序列)而不是基于物种的外在特征来构建各种生物间的系统发生树。其准确度依赖软件的优劣及参数的设置。
分子进化理论基于两个基本假设:
- DNA、RNA或蛋白质序列包含了物种的所有进化史信息
- 分子钟理论:一个特定蛋白质的进化变异的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。
同源(Homologs)
来源于共同祖先的相似的序列为同源序列。相似序列并不一定是同源序列。
同源只能定性描述,不能定量描述。
系统发生树
构建系统发生树树的意义
- 对于一个未知的基因或蛋白质序列,确定其亲缘关系最近的物种。
- 预测一个新发现的基因或蛋白质的功能。
- 有助于预测一个分子功能的走势。
- 追溯一个基因的起源。
系统发生树的样子

根是一切的起源。根和节都表示理论上曾经存在的祖先,叶子是现存的物种。

有根树与无根树
有根树反映了树上基因或蛋白质进化的时间顺序,通过分析有根树的树枝长度,可以了解不同的基因或蛋白质以什么方式和速率进化。
无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。

可以通过外类群(outgroup)来确定根的位置,从而把无根树变成有根树。
外类群是你所研究的内容之外的一个group。保证它在你要研究的内容之外,但又不能太远。可以不只是一个物种,而是多个。比如你要分析某一个基因在不同人种间的进化关系,那就可以额外选择黑猩猩加入进来,作为外类群一同参与建树。
系统发生树的构建
从实用的角度,建议使用最大似然法。
基于距离的非加权分组平均法(UPGMA)
UPGMA法是通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致性/相似度代替,或用其他简化值代替。
用什么序列建树?
如果DNA序列两两间的一致度大于70%,选用DNA序列。
如果DNA序列两两间的一致度小于70%的话,DNA序列和蛋白质序列都可以用。凭经验而言,选用蛋白质序列。