如何使用MEGA软件构建系统发育树_速成实用经验

本文主要介绍了使用MEGA7软件为获取的未知基因序列构建系统发育树,并从中获取基因序列的种属信息。

工欲善其事,必先利其器。我想,介绍构建系统发育树之前有必要介绍一下建树过程中用到的主要工具与关键词定义。

什么是MEGA?

MEGA (Molecular Evolutionary Genetics Analysis)是一款集序列比对、序列分析与系统进化树构建于一体的开源软件。MEGA软件具有分析效率高、操作简单和功能一体化等优点。登陆MEGA官网(https://www.megasoftware.net/)即可免费下载使用,Window/Mac/Linux三个平台都有可用的版本,当前最新版本是MEGA X。

什么是系统发育树?

系统发育树也称系统进化树(phylogenetic tree), 它是用类似树状分支的图来表示各种生物之间的亲缘关系, 通过对基因序列或蛋白质的对比分析来表征物种之间进化地位远近的一种方式。系统发育树主要是依靠它的拓扑结构和分支长度来展示所推演的进化过程。

--根据拓扑结构的不同系统发育树可以分为有根树和无根树。

有根树有一个根节点,代表所有其它节点的共同祖先,从根节点只有唯一路径经进化到达其他任何节点;

无根树只表明了节点之间的关系,没有进化方向,但是通过引入外群(outgroup)或外部参考物种可以在无根树中指派根节点。

可用来建树的数据: DNA or Protein (染色体基因、线粒体、叶绿体、16S、基因保守区(MLST、domain序列)等);可用来建树的方法:NJ(邻接法)、ML(最大似然法)、MP(最大简约法)、Bayes (贝叶斯法);可用来建树的模型:DNA(GTR、TN93、HKY等)、Protein(JTT、WAG、LG等)。

系统发育树构建的一般过程:

什么是BLAST?

BLAST全称Basic Local Alignment Search Tool,是查询序列在蛋白质数据库或者基因数据库中进行局部对比搜索的工具,分析的结果是以统计评分的方式呈现。其中,最常用的3个评分指标分别是E value,Total Score,Per.Ident。

E value

在BLAST结果页概述栏中,E value是默认按照由低到高的顺序排列。E value代表的是被比对的序列不相关的可能性,因此E value越小,代表序列相关性越大。若是E value无限趋近于0,则表示我们要检测的序列是完全匹配的。

Total Score

在概述栏中,Total Score分值越高,说明被BLAST的序列特异性越好。Total Score也是按照分值从高到低排列的。

Per.Ident

在概述栏中,Per.Ident代表了所在行的序列与被BLAST的序列的相似度。Per.Ident越大,表示该序列与被测序列相似度高,一般Per.Ident>97%就可以认为该序列与被测序列属于同属。

本文简要分享以MEGA7软件为工具,构建系统进化树的操作流程(具体参数细节请MEGA官网教程说明)。

当我们想要建立一个系统发育树时,大概率是两个原因:

1) 你获取了一个或多个基因片段,希望通过分子序列分析判定这些这些片段是来源于哪种属的?了解目标基因在整个进化体系中所处的地位,以及判断其与其他基因片段(或种)的亲缘关系;

2) 当你获取大量同源基因序列,你想要了解这些同源基因序列之间的进化关系与亲缘关系(譬如,新冠疫情全球爆发时,在世界各地采集的新冠病毒基因序列,往往呈现出来源于同一个国家或地区的亲缘关系更近)。

本文介绍第1种情况,假设以下是我获取的3段16SrRNA基因序列,分别命名为SW-1,ZL-2,XQ-3,以.txt文本文件形式保存:

01首先,登陆BLAST网站(https://blast.ncbi.nlm.nih.gov/Blast.cgi),界面如下:

然后点击“Nucleotide BLAST”按钮进行核苷酸序列比对,界面如下:

在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入上述“获取的序列.txt”文件中的第一段核苷酸序列SW-1;“Job Title”输入一个标识,用以区分,意义不大,输入“SW-1”;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”;勾选“Show results in a new window”。最后点击“BLAST”进行对比。对比结果如下图所示:

勾选需要下载的序列(构建一个系统发育树一般总共使用10~20条基因序列,一般选择相似度最高的(即最靠前)的序列进行建树),点击“Download”>“FASTA(complete sequence)”下载BLAST结果序列文件(在选择BLAST结果序列时,选择模式菌株序列会具有更强说服力与更高可信度)。

模式菌株:模式菌株(type strains)又称标准菌株,通常需要由至少两个不同国家的专门保藏机构保藏的菌株,一个菌株在同一个保藏机构有且仅有永久保藏号。保藏菌株是否是标准菌株的标志是在菌株名后有一个上标的T (Type),每种菌可以有多个标准菌株。
小技巧:一般可以根据BLAST结果最靠前的10个基因序列(Per.Ident>97%)来源菌属大致判断查询序列的来源菌属。譬如,本例的SW-1序列BLAST结果前10个都是“Pseudomonas”菌属,所以初步判定SW-1序列来源于“Pseudomonas”菌属。但这只是初步判断,并非一个强有力的依据。

结果文件(.txt)命名为“SW-1相似序列”,如下图所示:

按上述方法,依次将“获取的序列”文件中的“ZL-2”与“XQ-3”序列进行BLAST,下载的.txt文件分别命名为“ZL-2相似序列”,“XQ-3相似序列”。其中,SW-1,ZL-2,XQ-3共选取相似序列14条。

我们还将获取一个外源菌序列(本示例选择的是同科不同属的外源菌Cellvibrio mixtus)。文件如下图所示:

名词解释

外源菌:类似于“外群”,为了让查询菌的序列与相似序列更好地聚合,使得构建的系统发育树更具有可信度而引入的菌种。

外源菌的获取:可以先查询目标序列的所属属,再查其所属科级下的其他属。最后,去NCBI官网直接搜索该属名,选择一个对应的扩增区的模式菌株的序列即可尝试用于建树。

02此时,我们已经拥有了建立系统发育树所需要的全部数据。

然后,我们将需要用来建立系统发育树的.txt文本文件后缀改为.fas或.fasta,这样格式的文件才能够被MEGA软件识别与读取。

双击“获取的序列.fas”打开该文件,MEGA界面如下:

点击“Insert sequences from MEGA/FASTA/Text...”按钮,选择并导入“SW-1相似序列.fas”,“ZL-2相似序列.fas”,“XQ-3相似序列.fas”,“外源序列.fas”文件,显示如下,此按钮可以添加导入我们需要的序列文件。

打开所有用于构建系统发育树的序列.fas文件,如下图所示:

选择“Data”>“Select Gentic Code Table”进入密码子选择界面。

选择“Standard”标准密码子,选择“OK”继续。

选择“Edit”>“Select All”全选所有数据。

选择“Alignment”>“Align by ClustalW”进行序列比对。

弹出参数设置界面,无需更改,选择“OK”继续。

出现对比进度条框,等待完成...

可见,对比完成后,序列碱基明显被对齐。

将对齐后的序列前后裁齐,即选择前后端处不齐平的序列所在列,敲击键盘“delete”键删除。

裁剪齐平后,选择“Data”>“Export Alignment”>“MEGA Format”,保存裁剪齐了的对齐了的序列到“获取的序列.meg”。

提示“Input title of the data”,输入“获取的序列”,点击“OK”继续。

确认是否是蛋白编辑序列,这里选择“No”继续。

获得的“获取的序列.meg”如下所示:

03接下来,我们需要先探索最佳的建树模型,用于后续使用。

打开MEGA7主界面,如下图所示:

选择“Analysis”>“Models”>“Find Best DNA/Protein Model”,进入选取文件界面。

选择“获取的序列.meg”并打开,提示数据类型选择“Nucleotide Sequences”核苷酸序列,点击“OK”继续。

在分析偏好界面,“Statistical Method”选择“Maximum Likelihood”,“Gaps/Missing Data Treatment”选择“Use all sites”,“Branch Swap Filter”选择“Very Strong”,点击“Compute”继续。

等待分析进度条完成...

可见“Model”列中“GTR+G+I”的“Parameters”系数(43)最大,DNA模型预测结果表示选择“GTR+G+I”最佳。

进入主界面,选择“Phylogeny”>“Construct/Test Maximum Likelihood Tree...”进行基于MEGA的最大似然法建树。

选择文件“获取的序列.meg”,进入分析偏好界面。依据之前预测最合适的模型为GTR+G+I,所以“Model/Method”选择“General Time Reversible(GTR)”,“Rates among Sites”选择“Gamma distributed with Invariant sites(G+I)”。此外,“Test of Phylogeny”选择“Bootstrap”,“No. of Bootstrap Replications”选择“100”(一般都是100的整数倍,数值越大,评估次数越多,消耗的时间越多)。点击“Compute”开始进行建树计算。

等待建树进度条完成...

计算完成,结果界面如下:

系统发育树已经初步构成,但是直观可见存在个别序列影响树的结构与美观。这里我们做的是删除NR103934.2与NR043421基因序列(即在对齐裁剪序列之后和生成.meg文件之前删除这两个基因序列,只需要选中需要删除的序列,右击鼠标选delete就可以,后续分析步骤相同),重新计算与构建系统进化树。
重建的系统进化树“Original Tree”结果如下图所示:

点击“Bootstrap consensus tree”,结果如下图所示:

Original tree 与Bootstrap consensus tree有什么区别?
1)在构建系统树时,使用了Bootstrap法进行检验。在做Bootstrap时,以原序列为蓝本随机重组生成新的序列,重复估算模型。如果原序列计算得到的分枝在新Bootstrap中依然频繁出现,则该分枝的可信度高。分枝在Bootstrap中出现的频率就是表征分枝可信度的参数;
2)Original Tree是步长检验构建的 N次株树中的最优系统树。未经过多棵树合并,所以Original Tree上有计算得到的距离数据,可以精确地表征两个基因的亲缘远近;MEGA形成的Original Tree上也有频率参数,实际来自Bootstrap Consensus Tree的对应分枝;
3)Bootstrap Consensus Tree 是很多次Bootstrap得到的平均结果,它不包含进化距离信息(在设置View时无法调用,也没有意义),分枝上的数字代表该分枝的频率参数,即经步长检验有百分之几的树具有这根树枝,反应了该树枝的可信度。另外,它的拓扑结构也可能与Original Tree很不相同。

也可以选择“Tree/Branch Style”>“Radiation”,更换成放射状树枝风格。

也可以“Tree/Branch Style”>“Circle”,更换成环状树枝风格。

选择“Image”>“Save as PNG file”可将系统发育树保存为PNG图片格式。

一般这种样式的系统发育树往往不能满足期刊发表的要求,我们往往使用“Image”>“Copy to Clipborad”复制并粘贴到Word或IA软件中进行规范化与美化,操作如下图:

以Original Tree为例,使用Word修改规范后的图如下:

由以上系统发育树可以判定,SW-1,ZL-2与XQ-3三个基因序列来源于Pseudomonas菌属。此外也能基本判定SW-1,ZL-2基因序列来源于Pseudomonas stutzeri菌种,XQ-3基因序列来源于Pseudomonas mendoccina菌种。

到这里我们的建树工作基本已经完成了,从中我们获取了未知序列的基本种属信息与系统发育关系。当然这只是确定种属信息的一种方法,我们往往也会从其他方面考证,比如全基因组测序,纯化培养试验。

P.S:本文是小编结合网络教学资料与自身实践经验所作,偏重于经验分享。如果发现错误,希望各位读者在本公众号后台留言或发送邮箱(1633729012@qq.com)为我们指正,非常感谢!

本文提供所有数据原文件与MEGA7软件安装包,百度网盘下载链接:

https://pan.baidu.com/s/1K5o-I3tZP9LWxa66YMOBDQ

提取码:1234

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

如何使用MEGA软件构建系统发育树_速成实用经验​

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

  • 41
    点赞
  • 250
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
回答: MEGA是一种常用的软件工具,用于构建系统发育。通过对基因序列或蛋白质的对比分析,MEGA可以根据进化关系推断物种之间的亲缘关系,并生成系统进化。 在构建系统发育时,MEGA使用了Bootstrap法进行检验。Bootstrap法通过随机重组原序列生成新的序列,并重复估算模型,来评估分支的可信度。如果在新的Bootstrap中,分支的出现频率较高,则说明该分支的可信度较高。分支在Bootstrap中出现的频率可以作为分支可信度的参数。MEGA生成的系统发育包括两种类型,即Original Tree和Bootstrap Consensus Tree。Original Tree是步长检验构建的最优系统,它包含了计算得到的距离数据,可以准确表示基因的亲缘关系。而Bootstrap Consensus Tree是通过多次Bootstrap得到的平均结果,它不包含进化距离信息,而是用分支频率参数表示分支的可信度。需要注意的是,Bootstrap Consensus Tree的拓扑结构可能与Original Tree不完全相同。因此,在使用MEGA构建系统发育时,可以根据需要选择使用Original Tree还是Bootstrap Consensus Tree来解读物种的进化关系。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [如何使用MEGA软件构建系统发育_速成实用经验](https://blog.csdn.net/HUANWEIFENXI/article/details/120116129)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值