对于经常构建进化树的朋友来说,MEGA应该是个老朋友了。MEGA从1993年的第一个版本问世一直锤炼到去年刚刚发布的MEGA-X,已经经历了26年,在这期间,MEGA共更新八个版本,先后在Molecular Biology and Evolution、Bioinformatics、Computer Applications in the Biosciences等期刊上发表共十篇论文,总引用量已经超过11万。对于如此熟悉的一个老朋友,让我们今天一起来了解一下它的新版本MEGA-X,开发它更多的使用方法。
MEGA-X
的官网网址是
https://www.megasoftware.net/
,它支持在
Windows
、
MacOS
以及
Linux
系统下运行,有图形界面和命令行两个版本可供选择,支持
64
位和
32
位,与之前的版本比较,
MEGA-X
最大的特点是大数据运算能力增强,并且支持多种计算平台
。
今天主要介绍的是在
MEGA-X
图形界面下构建系统发育树并且对发育树进行美化。下载安装好
MEGA-X
后,首先打开软件。
此处我们以一株细菌的
16S rRNA
序列为目标序列,首先在
NCBI
中进行
Blast
比对,下载将要一起比对和构建进化树的菌株序列。在
NCBI
中输入序列或者上传文件,选择数据库时可以选择「
Nucleotide collection(nr/nt)
」或者「
16S ribosomal RNA sequences
」数据库,一般来说
nr/nt
库信息比较全面。
我们选择了
10
个不同种的
16S rRNA
序列进行下载。另外,此处还可以比对下载
2-3
条大肠杆菌(
Escherichia coli
)和沙门氏杆菌(
Salmonella
)的
16S rRNA
序列作为外类群(在
Organism
选项中进行物种限定),后面推断进化时间的时候可以用到。将所有下载的序列整理在一个文件中,为了方便后面的建树可以将菌株名称后面多余的信息在这里替换删除掉(只是名称上的信息,不要改动碱基序列),然后将文件的扩展名改为
.fasta
。在
MEGA-X
首页选择
DATA
,点击
Open a File/Session
,选择刚才的文件。
打开文件时询问「
Analyze or Align File?
」,此处点击
Align
。序列中可能会出现混合碱基符号,混合碱基符号指两种或多种碱基
(
核苷
)
混合物的表示符号,或未完全确定可能属于某两种或多种碱基
(
核苷
)
的符号:
R
表示
A+G
;
Y
表示
C+T
;
M
表示
A+C
;
K
表示
G+T
;
S
表示
C+G
;
W
表示
A+T
;
H
表示
A+C+T
;
B
表示
C+G+T
;
V
表示
A+C+G
;
D
表示
A+G+T
;
N
表示
A+C+G+T
。
接下来选择序列比对的方法:
Muscle
或者
ClustalW
。
ClustalW
的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,是一种经典的比对方法,使用范围也比较广泛。
Muscle
的功能仅限于多序列比对,它的最大优势是速度,比
ClustalW
的速度快几个数量级,而且序列数越多速度的差别越大。方法
可以通过点击图中上方
Alignment
或者下方的图标「
W
」和「
Muscle
」来选择。如果你的序列是
DNA
编码序列,就一定要选择
Align Codons
,因为序列通过密码子比对比
DNA
序列的比对会更加真实,避免间隙对比对结果产生的影响。
MEGA
可以比较方便快速地将密码子排列比对,后续作为输入文件在软件
PAML
或
DATAMONKEY
中进行进化压力的分析时就会比较方便。
在这里我们选择
Muscle
进行序列排列,点击
Align DNA
,会出现一些参数选项,根据自己需要进行修改,在这里直接点击
OK
选择默认参数即可。
比对之后要去检查一下比对的情况,有的差异很大的或许是因为序列方向反了,这个时候要把它反转回来,右击这条序列,点击
Reverse Complement
,反转后一定要再次点击
Muscle
比对,检查是否大部分都对齐了。
这里我们可以将最后对比后的文件导出,可以导出保存为
MEGA
格式。
然后点击
Data
中的
Phylogenetic Analysis
直接进行系统发育分析。
分析后返回主页面,接下来我们要选择一个最优的模型,提高建树的精确度。如果想要快速建树可以省去这一步,直接选择默认的模型。点击
MODELS
中的
Find Best DNA/Protein Models(ML)
软件就会根据你的数据帮你计算寻找最适合的模型。
分析时选择默认参数,开始进行分析计算。
不久就会显示分析计算结果。具有最低
BIC
分数(
BayesianInformation Criterion
)的模型被认为是最好地描述替代模式。对于每个模型,还给出了
AICc
值(
Akaike Information Criterion, corrected
,值越低拟合程度越好),以及用来计算上述两个分值的最大似然值(
lnL
)和参数数量(包括分支长度)。在这里就可以看到,
BIC
分数最低的模型是
K2+G+I
,
K2+G+I
在这里就是最好的模型。
但因为实际在后面的模型选择中,软件有时没有提供组合的模型来选择,所以我们继续看下面的
BIC
分数,可以找到单个模型中得分最小的,就是我们在这里要选择的最优模型。看到这里的
BIC
值最低的单个模型是
TN93
(
Tamura-Nei
)。
模型选好后,就可以点击
PHYLOGENY
进行方法的选择了。构建系统发育树有
三种主要的建树方法,分别是距离法、最大节约法
(maximumparsimony, MP)
和最大似然法
(maximum likelihood,ML)
。
最大似然法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果;距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度,基于距离的方法有
UPGMA
、
ME
(
Minimum Evolution
,最小进化法)和
NJ
(
Neighbor-Joining
,邻接法)等;最大节约法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。在这些方法中,如果模型合适,
ML
的效果较好。对于近缘序列,有人喜欢
MP
,因为用到的假设最少,远缘序列上一般用
NJ
或者
ML
,这两个方法都是需要选择模型的。对于相似性很低的序列,
NJ
往往出现
Long-branch attraction
(
LBA
,长枝吸引现象),这种现象有时候会严重干扰进化树的构建。其实当序列的相似性比较高时,各种方法都会得到不错的结果,模型之间的差别也不是很大。所以平时我们一般推荐用两种不同的方法进行建树,如果得到的进化树类似,则结果较为可靠。这里我们先选择
Neighbor-Joining
法建树。
点击方法后,选择自展值,即重复构建进化树以进行检验的次数,一般选择
1000
以上才比较可靠。模型的话选择之前计算好的最优的模型,点击
OK
。
稍等片刻,就初步构建好了这个树,接下来我们对这棵树进行一些调整和美化。首先我们看到每棵树的前面都标有自展值,这主要是对进化树进行评估的一个百分比值。因为进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的「进化树」。这里的数值表示我们将该树重复构建
1000
(之前设置的数值)次,得到相同结果的次数占重复次数的百分比值。一般
Bootstrap
的值
>70%
,则认为构建的进化树非常可靠,
50%-70%
认为基本可靠,小于
50%
认为不可靠(不同的人对于这个阈值有不同的划分)。如果
Bootstrap
值太低,则有可能进化树的拓扑结构有错误。当
Bootstrap
的值小于
50%
时,我们一般选择隐去。
点击左上的工具图标,隐去较低的自展值可以点击此处的
Branches
。
设置隐去
50
以下的数值。
这个工具栏里的其他选项还可以对字体和线条粗线长短等进行修改,并且将想要突出的菌株和分枝信息进行重点标注。
左边的工具栏里还可以对进化树进行修改,比如改变树根,调整分枝的上下位置,以及重点标记突出某个分枝信息。
最后美化结果。
在这里还可以点击树形图标将进化树修改成为圆圈型和松针型。
结果图展示如下。
为了数据更加可靠,大家可以再选择另外一种方法进行建树,和上一种方法构建出的进化树进行比对。然后最后导出储存图片,这里提供
EMP
、
SVG
(矢量图,可进一步通过绘图软件如
AI
编辑)、
PDF
、
PNG
和
TIFF
(位图)几种格式来导出。
记得将进化树的文本文件也保存一下。点击
File
中的
Export Current Tree(Newick)
保存
Newick
格式。
保存后的树文件格式如下,导出的树文件便于之后在
iTOL
、
Evolview
、
Figtree
等工具中进行更进一步的美化,比如添加分类颜色、标记以及热图和条形图等。
MEGA
的使用非常方便,作为一个历史悠久并且极具创新精神的软件,它一直在提高自己的计算速度,丰富自己的计算平台。今天主要介绍了用图形界面
MEGA-X
建树的操作步骤,下次我们来介绍下根据
MEGA-X
构建的进化树来推断物种进化时间以及链接到
DATAMOKEY
等软件去计算进化压力等,期待一下吧。
参考文献:
Kumar S, Stecher G, LiM, et al. MEGA-X: Molecular Evolutionary Genetics Analysis across computingplatforms[J]. Molecular Biology & Evolution, 2018.
.net bootstrap 下拉树状选择框_利用MEGAX选择模型及构建美化进化树
最新推荐文章于 2021-01-14 06:04:01 发布