本节主要介绍了使用Mothur软件对扩增子基因序列进行物种注释及系统发育树构建。
01OTUs
现在有两个选项可以将序列聚类到OTU中。本数据为小型数据集,可以使用dist.seqs和cluster执行传统方法。
屏幕输出:
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.dist
文件注释:前两列为序列名称,第三列是两个序列之间距离计算结果。 |
屏幕输出:
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list
文件注释:该文件为524个OTU每个所包含的序列。 |
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.steps
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.sensspec
另一种选择是使用cluster.split命令。在这种方法中,使用分类学信息将序列分为多个bin,然后在每个bin中进行聚类。优点是它更快,占用内存更少,并且可以在多个处理器上运行。在此命令中使用taxlevel=4,对应于Order的级别。
命令注释:cluster.split命令用于将序列对齐至otus并输出.list文件。 |
屏幕输出:
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.dist
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.list
文件注释:每一个otu中包含的序列名称。 |
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.sensspec
使用make.shared命令可以知道每个组中每个OTU中有多少序列。在这里将Mothur的阈值设置为0.03,
屏幕输出:
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.shared
文件注释:该文件包含每组样品的OTU数量,可以根据比例绘制OTU丰度柱状图。 |
命令注释:classify.out命令用于otu的物种注释。 |
屏幕输出:
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.0.03.cons.taxonomy
文件注释:举例说明—在样本中观察到Otu008一共5337次,并且所有序列(100%)都被归类为Alistipes(另枝菌属)的成员。 |
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.opti_mcc.0.03.cons.tax.summary
02ASVs
OTU通常表示彼此之间相差不超过3%的序列。相反,如果序列彼此不同,ASVs(又称ESVs)会努力将它们区分为不同的OTU。ASV通常是一组相互间隔一个或两个碱基的序列。Mothur中内置的用于识别ASV的方法是pre.cluster。将序列聚类为ASV,然后删除嵌合体和污染物序列。可以使用make.shared命令将用于形成OTU的fasta和count_table文件转换为共享文件。
屏幕输出:
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.asv.shared
文件注释:从该文件可以知道依据ASV分类每组分别有2426个OTUs以及每组包含的单个OTU的数量。 |
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.asv.list
文件注释:单个OTU所包含的序列。 |
这会产生一个共享和列表文件。可以使用的共享文件就像形成OTU或phylotypes的共享文件一样。可以使用列表文件为每个ASV生成共同的物种(consensus taxonomy)。
屏幕输出:
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.asv.asv.cons.taxonomy
stability.trim.contigs.good.unique.good.filter.unique.precluster.denovo.vsearch.pick.pick.pick.asv.asv.cons.tax.summary
名词解释
物种分类(Taxonomy of species):通过将ASV/OTU等特征序列,与具有已知分类组成的序列参考数据库进行比较来实现物种注释。具体来说就是为了得到每个OTU对应的物种分类信息,采用统计学算法对一定相似度水平的OTU代表序列进行比对分析,并分别在各个分类水平domain(域),kingdom(界),phylum(门),class(纲),order(目),family(科),genus(属),species(种)统计各样品的群落组成。
相对丰度:即序列数除以该样品的测序总序列数。
ASVs(Amplicon sequence variants):扩增序列变体。
03Phylotypes
对于某些分析,希望根据它们的分类学分类将序列分类到phylotypes。可以使用phylotype命令,
命令注释:Phylotype命令用于将基于物种分类将序列对齐至otus并输出.list、.rabund、.sabund文件。 |
屏幕输出:
输出结果注释:与cluster/cluster.split相比,phylotype的临界值编号略有不同。屏幕上列出的1到6是级别分别对应从属到界的水平。 |
输出文件:
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.sabund
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.rabund
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.list
如果需要genus级别的共享文件,可以执行以下操作,屏幕输出:
输出结果注释:屏幕上列出的1是具体分类级别。 |
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.shared
文件注释:第一列是lable,第二列是组名,第三列是numOtus,后面每列为不同OTU数量。 |
在phylotypes上运行classify.out弄清楚这些OTU的物种注释,
屏幕输出:
输出文件(举一个例子):stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pds.wang.pick.pick.tx.1.cons.tax.summary
文件注释:各分类级别的每组不同物种的情况。 |
04Phylogenetic
使用依赖于系统发生树的方法(例如计算系统多样性或unifrac命令)需要生成树。随着序列数量的增加,此过程变得不稳定。以下是如何使用dist.seqs和Clearcut。
屏幕输出:
输出文件:stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.phylip.dist
命令注释:clearcut命令可使用户在mothur内部运行clearcut程序。 |
屏幕输出:
输出文件:系统发育树文件
stability.trim.contigs.good.unique.good.filter.unique.precluster.pick.pick.pick.phylip.tre
文件注释:可以使用其他软件进行绘制,例如MEGA。 |
名词解释
Phylotype:系统型,基于其分类分配序列到OTU并输出.list,.rabund和.sabund文件。
系统发生树(Phylogenetic tree):又称为演化树(evolutionary tree),具有共同祖先的各物种间演化关系的树,是一种亲缘分支分类方法(cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
本文提供所有输出文件,百度网盘下载链接:https://pan.baidu.com/s/1P6gTNXnfpBQVU90_4K9c4g
提取码:1234
这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!
学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!
转载自原创文章:
Mothur4进阶_Mothur扩增子基因序列处理_物种注释及发育分析
最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!