.net bootstrap 下拉树状选择框_利用MEGAX选择模型及构建美化进化树

f192a42f-7e1a-eb11-8da9-e4434bdf6706.gif

对于经常构建进化树的朋友来说,MEGA应该是个老朋友了。MEGA从1993年的第一个版本问世一直锤炼到去年刚刚发布的MEGA-X,已经经历了26年,在这期间,MEGA共更新八个版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上发表共十篇论文,总引用量已经超过11万。对于如此熟悉的一个老朋友,让我们今天一起来了解一下它的新版本MEGA-X,开发它更多的使用方法。 MEGA-X 的官网网址是 https://www.megasoftware.net/ ,它支持在 Windows 、 MacOS 以及 Linux 系统下运行,有图形界面和命令行两个版本可供选择,支持 64 位和 32 位,与之前的版本比较, MEGA-X 最大的特点是大数据运算能力增强,并且支持多种计算平台

f592a42f-7e1a-eb11-8da9-e4434bdf6706.png

今天主要介绍的是在 MEGA-X 图形界面下构建系统发育树并且对发育树进行美化。下载安装好 MEGA-X 后,首先打开软件。

f792a42f-7e1a-eb11-8da9-e4434bdf6706.png

此处我们以一株细菌的 16S rRNA 序列为目标序列,首先在 NCBI 中进行 Blast 比对,下载将要一起比对和构建进化树的菌株序列。在 NCBI 中输入序列或者上传文件,选择数据库时可以选择「 Nucleotide collection(nr/nt) 」或者「 16S ribosomal RNA sequences 」数据库,一般来说 nr/nt 库信息比较全面。

f992a42f-7e1a-eb11-8da9-e4434bdf6706.png

我们选择了 10 个不同种的 16S rRNA 序列进行下载。另外,此处还可以比对下载 2-3 条大肠杆菌( Escherichia coli )和沙门氏杆菌( Salmonella )的 16S rRNA 序列作为外类群(在 Organism 选项中进行物种限定),后面推断进化时间的时候可以用到。将所有下载的序列整理在一个文件中,为了方便后面的建树可以将菌株名称后面多余的信息在这里替换删除掉(只是名称上的信息,不要改动碱基序列),然后将文件的扩展名改为 .fasta 。在 MEGA-X 首页选择 DATA ,点击 Open a File/Session ,选择刚才的文件。

fb92a42f-7e1a-eb11-8da9-e4434bdf6706.png

打开文件时询问「 Analyze or Align File? 」,此处点击 Align 。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基 ( 核苷 ) 混合物的表示符号,或未完全确定可能属于某两种或多种碱基 ( 核苷 ) 的符号: R 表示 A+G ; Y 表示 C+T ; M 表示 A+C ; K 表示 G+T ; S 表示 C+G ; W 表示 A+T ; H 表示 A+C+T ; B 表示 C+G+T ; V 表示 A+C+G ; D 表示 A+G+T ; N 表示 A+C+G+T 。

fe92a42f-7e1a-eb11-8da9-e4434bdf6706.png

接下来选择序列比对的方法: Muscle 或者 ClustalW 。 ClustalW 的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。 Muscle 的功能仅限于多序列比对,它的最大优势是速度,比 ClustalW 的速度快几个数量级,而且序列数越多速度的差别越大。方法 可以通过点击图中上方 Alignment 或者下方的图标「 W 」和「 Muscle 」来选择。如果你的序列是 DNA 编码序列,就一定要选择 Align Codons ,因为序列通过密码子比对比 DNA 序列的比对会更加真实,避免间隙对比对结果产生的影响。 MEGA 可以比较方便快速地将密码子排列比对,后续作为输入文件在软件 PAML 或 DATAMONKEY 中进行进化压力的分析时就会比较方便。

0193a42f-7e1a-eb11-8da9-e4434bdf6706.png

在这里我们选择 Muscle 进行序列排列,点击 Align DNA ,会出现一些参数选项,根据自己需要进行修改,在这里直接点击 OK 选择默认参数即可。

0893a42f-7e1a-eb11-8da9-e4434bdf6706.png

比对之后要去检查一下比对的情况,有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击 Reverse Complement ,反转后一定要再次点击 Muscle 比对,检查是否大部分都对齐了。

0d93a42f-7e1a-eb11-8da9-e4434bdf6706.png

这里我们可以将最后对比后的文件导出,可以导出保存为 MEGA 格式。

1393a42f-7e1a-eb11-8da9-e4434bdf6706.png

然后点击 Data 中的 Phylogenetic Analysis 直接进行系统发育分析。

1b93a42f-7e1a-eb11-8da9-e4434bdf6706.png

分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击 MODELS 中的 Find Best DNA/Protein Models(ML) 软件就会根据你的数据帮你计算寻找最适合的模型。

2193a42f-7e1a-eb11-8da9-e4434bdf6706.png

分析时选择默认参数,开始进行分析计算。

2493a42f-7e1a-eb11-8da9-e4434bdf6706.png

不久就会显示分析计算结果。具有最低 BIC 分数( BayesianInformation Criterion )的模型被认为是最好地描述替代模式。对于每个模型,还给出了 AICc 值( Akaike Information Criterion, corrected ,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值( lnL )和参数数量(包括分支长度)。在这里就可以看到, BIC 分数最低的模型是 K2+G+I , K2+G+I 在这里就是最好的模型。

2693a42f-7e1a-eb11-8da9-e4434bdf6706.png

但因为实际在后面的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下面的 BIC 分数,可以找到单个模型中得分最小的,就是我们在这里要选择的最优模型。看到这里的 BIC 值最低的单个模型是 TN93 ( Tamura-Nei )。

2c93a42f-7e1a-eb11-8da9-e4434bdf6706.png

模型选好后,就可以点击 PHYLOGENY 进行方法的选择了。构建系统发育树有 三种主要的建树方法,分别是距离法、最大节约法 (maximumparsimony, MP) 和最大似然法 (maximum likelihood,ML) 。 最大似然法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果;距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,基于距离的方法有 UPGMA 、 ME ( Minimum Evolution ,最小进化法)和 NJ ( Neighbor-Joining ,邻接法)等;最大节约法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。在这些方法中,如果模型合适, ML 的效果较好。对于近缘序列,有人喜欢 MP ,因为用到的假设最少,远缘序列上一般用 NJ 或者 ML ,这两个方法都是需要选择模型的。对于相似性很低的序列, NJ 往往出现 Long-branch attraction ( LBA ,长枝吸引现象),这种现象有时候会严重干扰进化树的构建。其实当序列的相似性比较高时,各种方法都会得到不错的结果,模型之间的差别也不是很大。所以平时我们一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择 Neighbor-Joining 法建树。

3093a42f-7e1a-eb11-8da9-e4434bdf6706.png

点击方法后,选择自展值,即重复构建进化树以进行检验的次数,一般选择 1000 以上才比较可靠。模型的话选择之前计算好的最优的模型,点击 OK 。

3293a42f-7e1a-eb11-8da9-e4434bdf6706.png

稍等片刻,就初步构建好了这个树,接下来我们对这棵树进行一些调整和美化。首先我们看到每棵树的前面都标有自展值,这主要是对进化树进行评估的一个百分比值。因为进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的「进化树」。这里的数值表示我们将该树重复构建 1000 (之前设置的数值)次,得到相同结果的次数占重复次数的百分比值。一般 Bootstrap 的值 >70% ,则认为构建的进化树非常可靠, 50%-70% 认为基本可靠,小于 50% 认为不可靠(不同的人对于这个阈值有不同的划分)。如果 Bootstrap 值太低,则有可能进化树的拓扑结构有错误。当 Bootstrap 的值小于 50% 时,我们一般选择隐去。

3493a42f-7e1a-eb11-8da9-e4434bdf6706.png

点击左上的工具图标,隐去较低的自展值可以点击此处的 Branches 。

3793a42f-7e1a-eb11-8da9-e4434bdf6706.png

设置隐去 50 以下的数值。

3d93a42f-7e1a-eb11-8da9-e4434bdf6706.png

这个工具栏里的其他选项还可以对字体和线条粗线长短等进行修改,并且将想要突出的菌株和分枝信息进行重点标注。

3f93a42f-7e1a-eb11-8da9-e4434bdf6706.png

左边的工具栏里还可以对进化树进行修改,比如改变树根,调整分枝的上下位置,以及重点标记突出某个分枝信息。

4293a42f-7e1a-eb11-8da9-e4434bdf6706.png

最后美化结果。

4593a42f-7e1a-eb11-8da9-e4434bdf6706.png

在这里还可以点击树形图标将进化树修改成为圆圈型和松针型。

4893a42f-7e1a-eb11-8da9-e4434bdf6706.png

结果图展示如下。

4a93a42f-7e1a-eb11-8da9-e4434bdf6706.png

为了数据更加可靠,大家可以再选择另外一种方法进行建树,和上一种方法构建出的进化树进行比对。然后最后导出储存图片,这里提供 EMP 、 SVG (矢量图,可进一步通过绘图软件如 AI 编辑)、 PDF 、 PNG 和 TIFF (位图)几种格式来导出。

4d93a42f-7e1a-eb11-8da9-e4434bdf6706.png

记得将进化树的文本文件也保存一下。点击 File 中的 Export Current Tree(Newick) 保存 Newick 格式。

5193a42f-7e1a-eb11-8da9-e4434bdf6706.png

保存后的树文件格式如下,导出的树文件便于之后在 iTOL 、 Evolview 、 Figtree 等工具中进行更进一步的美化,比如添加分类颜色、标记以及热图和条形图等。

5593a42f-7e1a-eb11-8da9-e4434bdf6706.png

MEGA 的使用非常方便,作为一个历史悠久并且极具创新精神的软件,它一直在提高自己的计算速度,丰富自己的计算平台。今天主要介绍了用图形界面 MEGA-X 建树的操作步骤,下次我们来介绍下根据 MEGA-X 构建的进化树来推断物种进化时间以及链接到 DATAMOKEY 等软件去计算进化压力等,期待一下吧。 参考文献: Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018. 5993a42f-7e1a-eb11-8da9-e4434bdf6706.png 5e93a42f-7e1a-eb11-8da9-e4434bdf6706.gif
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值