关闭

prottest

83人阅读 评论(0) 收藏 举报
本文重点总结使用MUSCLE,ProtTest以及PhyML对蛋白序列进行构树的一般步骤,所涉及软件可能也适合核酸序列,在此不做讨论
   A phylogenetic tree or evolutionary tree is a branching diagram or 'tree' showing the inferred evolutionary relationship among various biological species or other entities based upon similarities and differences in their physical and/or genetic characteristics. The taxa joined together in the tree are implied to have descended from a common ancestor (Phylogenetic tree - Wikipedia).
  Phylogenetic tree, 进化树、演化树、系统树、系统发育树、系统发生树……非专业人士,不敢妄言哪个称谓最确切,留待专业人士解答吧~
  对于建树而言,通常分为三步:
  1)多序列比对(Multiple Sequence Alignment);
  2)树的构建
  3)对所建树的评估
1.多序列比对
  多序列比对是建树的基础。可用于多序列比对的软件很多,如ClustalX,ClustalW,MEGA,MUSCLE等。各软件的特点在分子进化树的构建方法一文中有细致的描述,可能该文年岁有点久,难免有些许瑕疵,比如建ML树是需要做多序列比对的,MEGA现在也可以用于ML树的构建。当然这篇文章总结还算比较周全的。
  在讲MUSCLE之前对MEGA多提几句。MEGA为图形化界面的傻瓜软件,可提供多序列比对、进化树构建、评估、图形编辑一条龙服务,对于初学者或简单建树而言最为方便快捷,当然伴随的缺点就是许多参数不可控,只能被动接受软件给出的结果。
  MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are consistently better than CLUSTALW.
  MUSCLE要求输入的文件格式为fasta格式
  通常多序列比对都涉及到accuracy和speed的问题,实际上对MUSCLE而言两者所用时间相差并不大,最多几十秒的差别,所以选择最accurate的设置即可。而MUSCLE默认的设置即以accuracy最高为标准
  MUSCLE输出结果可以有多种格式(interleaved phylip,sequential phylip,fasta<默认>)供选择,这需要我们根据实际需求选择,因为在使用PhyML构树时需要指明所用phylip格式是interleaved还是sequential的。我用的interleaved.
  用MUSCLE做比对的命令如下:
$muscle -in prosequence.fasta -phyiout prosequence.phy #muscle是经重命名得到的,如此做的目的仅是为了书写命令方便。本例输出的文件即为interleaved phylip格式,若用-out,输出默认的fasta格式,若用-physout,则输出sequential phylip格式
  注:用MUSCLE作比对输出的phylip格式文件中,序列名称仅保留前10个字符,后面的会被cut掉,因此特别注意的是,最终形成的每一个序列名称必须是独一无二的,不能出现重复。
2.树的构建
  建树工具也有很多,比如PHYLIP,Tree-puzzel,PAUP,PhyML等。本文仅关注PhyML。
PhyML有网页版和软件版两种运行方式
  用PhyML建树涉及到模型的选择和许多参数的设置问题。在建树之前最好用ProtTest测试哪种模型最适合当前的数据。
1)ProtTest的使用(详见Manual)
  在对DNA建树前需要用到ModelTest检测合适的模型,ProtTest可以看成ModelTest的蛋白兄弟版。
  ProtTest有图形界面版、命令行版和网页版。我的mac无法直接打开.jar文件,因此只能用命令行运行,所用命令为:
  $ java -jar prottest-3.3.jar -i prosequence.phy -o modeltest_prosequence.txt -S 1 -AIC -I -G -IG -F -ncat 8 -all
  # java -jar prottest-3.3.jar即为调用命令,跟manual不一样,按照manual的写法我运行不了;
   -i 为输入的文件名,即多重比对得到的那个结果 -o 为输出的结果
   -S 为运算策略,fast为0,slow为1,同样的slow会更精确些
   -AIC指用于排序的framework,除AIC外还有AICc,BIC,DT等
   -G -I -IG -F 为几种策略,我觉得做model检测的时候就全选上吧,试一试到底哪个好
   -ncat 8 指的是8个rate category,PhyML建树的时候也会设置这个参数,个人感觉此处应该跟PhyML所用的参数一致,默认值为4,在一定范围内越大越好,但是会有个阈值,有人用6,我用的8
   -all 会汇总各个frameworks的排序结果
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
(AIC详细结果,LG+I+G+F为最适模型,此为-AIC得到的)
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
(不同frameworks下各模型的排序,括号里数字为顺序,外面为概率。此即为-all得到的)
  最终我们选择了LG+I+G+F模型,这时需要去找该模型对应的参数
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
注:gamma shape即为PhyML建树时用到的Gamma distribution parameter,将其fix为0.97
     proportion of invariable sites在PhyML也有对应的选项,fix为0.019(在PhyML里最终会保留为0.02)
      aminoacid frequencies不知是否需在PhyML中改,没找到相应的设置,可能在PhyML中该选项选为empirical即是,此处不太确定。
2)PhyML建树(详见Manual)
  PhyML建树主要涉及以下四个方面参数的设置:
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
  其中Substitution Model的设置即需要用到ProtTest的结果
  具体设置如下:
1】Input Data
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
  输入左边的字母或符号,Enter之后,即可对右边的参数进行修改,根据实际情况选择数据类型;设置完毕后输入+,再Enter即进入下一个sub-menu
2】Substition Model
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
  此处的参数根据ProtTest结果进行设置,本例中最佳模型为LG+G+I+F,因此model选LG,proportion of invariable sites(I)定为0.02;Gamma distribution parameter(G)定为0.97;Animo acid frequencies(F)选empirical?Number of substitution rate categories用8,只要不小于4就行,大了更好些,也无需太大。
3】Tree Searching
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
  这样选应该就可以了
4】Branch support
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nbblog_63
  Bootstrap analysis次数不能太少,用1000次得到的结果可能更准确。设置完成后检查一遍,提交即可开始运算,可能需要10几20个小时吧~
  此步可以认为是大步骤(3):对所建进化树进行评估。
  运算结束后会生成多个文件:
Combination <wbr>of <wbr>MUSCLE, <wbr>ProtTest <wbr>and <wbr>PhyML <wbr>for <wbr>Phylogenetic&nb
  第一个.txt文件为最终的树文件,可以用TreeView进行查看、编辑,至此大功告成了。TreeView在Mac上又没装好,哎~

command line
phyml -i <inputfile> -d aa -b -3 -f e -v e -s BEST -o tlr --no_memory_check
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:169次
    • 积分:34
    • 等级:
    • 排名:千里之外
    • 原创:3篇
    • 转载:2篇
    • 译文:0篇
    • 评论:0条
    文章存档