点击上方「蓝字」关注我们
系统发育树概念
所有生物都可以追溯到共同的祖先,生物的产生和分化就像树一样生长、分叉,所以可以以树的形式来表示生物之间的进化关系。而系统发育树(phylogenetic tree/evolutionary tree)即是表明被认为具有共同祖先的各物种相互间进化关系的树形图。
系统发育树的种类
1.有/无根树
有根树:反应的是时间顺序
无根树:反应的是距离
2. 标度/非标度树
标度树
非标度树
3. 物种/基因树
物种树
代表一个物种或群体进化历史的系统进化树,两个物种分 歧的时间为两个物种发生生殖隔离的时间。
基因树
由来自各个物种的一个基因构建的系统进化树(不完全等同于物种树),表示基因分离的时间。
系统发育树的构建
构建步骤
- 多序列比对(自动比对,手工矫正)
- 选择建树方法及模型
- 建立进化树
- 进化树评估
构建方法
- 距离法 :适用序列有较高相似性时 (由进化距离建进化树方法很多)
- Fitch-Margoliash Method(FM法) :对短枝长非常有效
- Neighbor-Joining Method(NJ法/邻接法):求最短枝长,最通目前比较流行PHILIP和MEGA基本够用,若要建ML树需要实用PHYML,另外如果要用于发表生物信息学领域,文章需要两种以上构建方法锁定同一结果才能审核通过。用的距离方法
- Neighbors Relaton Method(邻居关系法)
- Unweighted Pair Group Method(UPGMA法/非加权组平均法)
从计算速度角度考虑,距离法 > 最大简约法 > 最大似然法。但是从实用角度考虑,建议使用最大似然法,其无论精度还是准度都比较适中,对上述方法原理感兴趣的同学可自查,这里不再过多赘述。
常用软件
目前比较流行PHILIP和MEGA基本够用,若要建ML树需要使用PHYML,另外如果要用于发表生物信息学领域,文章一般需要两种以上构建方法锁定同一结果才能审核通过。这篇文章我们主要讲下如何用MEGA软件制作系统发育树。
MEGA 使用
准备工作
- 准备你要建树的序列,这里我自己在NCBI上随便找的相似性比较高的10几条序列作为演示,大家使用时候换成自己准备的序列即可。注意,你的序列下载格式必须是Fasta格式
当你想要的序列找完之后,你要将所有的fasta序列合并在一个文件里。先来看下什么是fasta格式。第一行统一为> + 序列的ID(物种名),下面为这个ID的序列。所以你需要将你所有的fasta序列复制粘贴进一个文本中准备好。
- 另外注意,构建进化树要选择一个或者多个已知与分析序列关系较远的序列作为外围支,外围支可以辅助定位树根,且序列与其他序列间的差异必须比其他序列之间的差异更显著。
软件设置
- 打开MEGA7.0,File → Open → Open A File → 找到并打开序列
Analyze:分析好的序列Align:让MEGA先比对序列(即原始序列)
- 选择Align,之后会弹出的Aligment Explor窗口,全选你的序列,窗口上方点击Alignment 选择比对方法(常用ClustalW),后面带codons是比对蛋白的。
或者直接点上面W图标,选择Align DNA即可。
3.然后弹出多序列比对参数窗口,参数默认不用管。
4.之后系统会比对计算,等结束之后我们还需要做的一步就是人工矫正,根据你序列中最短的那一条,选中比对结果中前、后俩边多余的序列(虚线就是空白的序列),右键cut,使所有的序列对齐长度一致。OK,现在这个比对结果你也可以通过点Data -> Export Alignment -> MEGA Format进行保存。
- 修饰完之后,我们点击窗口上方Data -> Phylogenetic Analysis(系统发育分析),
接着会弹出该窗口,选择No
- 之后我们可以缩小这个窗口了,回到最初的窗口,分析结果现在已经出来了,这里我们选择Phylogeny中最常用的NJ法去构树。
- 参数窗口设置,这里只需要修改俩个参数,Test of Phylogeny 这里第一次使用MEGA的话,是默认为None的,我们这里将其修该为bootstrap method,下面数字修改为1000.
- 设置完毕点击下面的Compute即可,然后稍等几秒钟树就构建好了。我们一般放论文里的就是Bootstrap consensus tree中的这个树。这里你可能觉得每条树支后面的名称太长,不太好看,这步其实就是你之前下载的fasta文件中序列ID的那一行中的名字,所以作图前请修改好ID。
- 可以设置数的形式,字体,颜色等,根据自己喜好选择吧。
- 图片保存,选择Image,提供有各种格式供选择。
OK,构建系统发育树的流程基本就是上述这些步骤,不是很难,总之树要建的好,和你最初选择的序列有很大的关系,所有前期挑选序列时候要认真一点。
其他问题
- 进化树分枝上的值为自距值,表示画1000棵进化树,出现的可能性(%)。一般认为这个值大于70,节点比较可靠,值太小要更换所选参比序列,调整外群,优化进化树。
- 各种修图细节(比如高亮哪些分支)也可导出矢量图形式(比如PDF格式)在PS或者AI里调整。
- 单纯由预先获得的多序列比对结果数据所推导出的进化树有时候并不一定可靠,改进方法就是引进一些统计分析来寻找更优的进化树,检验结果的可靠性,最常见的就是修改bootstrap评估置换次数。这种方法的原理就是:
- 从排列的多序列中随机有放回的抽取某一列,构建相同长度的新的排列序列
- 重复上面的过程,得到多组新的序列
- 对这些新的序列进行建树,再观察这些数与原始树是否有差异,以此评价建树的可靠性。
- 软件安装百度搜索就很简单下载,也直接公众号回复【MEGA】自行提取。
- 推荐学习视频:https://www.bilibili.com/video/BV13t411372E?p=68 (山东大学生物信息课——MEGA构建NJ树)