ClustalW是现在用的最广和最经典的多序列比对软件, Muscle是速度最快的多序列比对之一,T-coffee是越来越受到欢迎的软件.它们各自有什么优点和缺点呢?
ClustalW不仅可以用来做多序列比对,也能做Profile-profile比对,以及基于Neighbor-joining方法构建进化树.但是最常用的是多序列比对.从速度上来说,它有两种运行模式:accurate,slow 和fast,appropriate.即使是fast模式它的速度也不如Muscle,但是slow模式也比T-coffee要快.
ClustalW的基本原理是首先做序列的两两比对,根据该两两比对计算两两距离矩阵,然后用NJ或者UPGMA方法构建Binary进化树作为guide tree,最后用progressive的方法根据guide tree逐步添加序列进行比对,一直到所有序列都比对好.
Muscle的功能仅限于多序列比对,它的最大优势是速度,比clustalw的速度快几个数量级,而且序列数越多速度的差别越大.它的时间复杂度为O(NL^2+N^3L),空间复杂度为O(N^2+NL+L^2).它之所以比clustalw快一方面是因为没有进行两两序列比对,用序列间共有的word数表征序列间的相似性;另一方面用UPGMA代替NJ构建guide tree. 如果没有对于结果的refinement过程,时间更短,时间复杂度为O(NL^2),也就是说时间和序列数成线性关系.一个形象的例子是,5000条长度为350的数据进行比对只需要7分钟,而用Clustalw则可能需要1年. 尽管如此,muscle对于内存的要求较高,从它的空间复杂度可以看出来.
T-coffee之所以广受欢迎可能是因为它的准确度和强大的功能.它能够整合很多信息,如结构信息,实验数据等用于序列比对.它的基本原理是首先构建一个库包含有clustalw得到的序列两两比对和fasta得到的局部两两比对,并且给每个比对一个权重.然后把全局比对和局部比对的结果进行整合,每个两两比对中每个位点的比对都是综合了库中该两两比对的序列和其他序列比对的结果,这样就给该位点比对一个权重