提到构建系统发育树,我们大概都会想到一堆的软件,如下表:
(图片来源:H.O. Minoarivelo, 2015)
这些软件背后的算法主要分为四种:比如当下最广泛使用的MEGA,就提供了最大似然法、最大简约法、距离矩阵法,可以选择bootstrap法测验,每个方法也提供了不同的进化模型以供选择。而近年来引用量逐年攀升的MrBayes,采用的则是贝叶斯推断法。
这四种方法到底有什么不同,我们来看一看。
首先是距离矩阵法(distance matrix method)
顾名思义,是基于距离矩阵构建的系统发育树,那么什么是距离矩阵?
wiki给出的解释是a distance matrix is a square matrix (two-dimensional array) containing the distances, taken pairwise, between the elements of a set. 即距离矩阵是一个二维的数组,这个二维数组中包含了数据集中两两元素之间距离。
但是! 距离是怎么计算的呢?
在系统发育分析中,我们称为遗传距离,指的是所有成对实用分类单元OTU(operational taxonomic units)之间的距离(或称差异值),实用分类单元可以是个体、群体或物种、种上分类单元或基因家族。所选用的数据可以是序列也可以是其他性状数据。
如下,假定有n个OTU,那么将组成n x n 的矩阵,需要计算的成对距离有n(n-1)/2个。
OTU1 |
OTU2 |
OTU3 |
… |
OTUn |
|
OTU1 |
- |
d12 |
d13 |
… |
d1n |
OTU2 |