最近,越来越多的证据表明:自然环境(如海洋、土壤等)中的微生物群落功能(functional)组成而非物种(taxonomic)组成与环境因子密切相关;换言之,相似环境中的微生物群落功能更相似,而行使功能的微生物物种组成可能差异较大(Gibbons et al. 2017; Louca et al. 2016; Nelson et al. 2016)。这说明,除了揭示环境中有哪些微生物之外,揭示微生物群落功能轮廓尤为重要。目前,微生物生态研究中常用的揭示微生物群落功能的方法有宏基因组测序、宏转录组测序、宏蛋白组测序、宏代谢组分析等。这些方法优点突出,能较准确、真实地反映不同层面的微生物群落功能特征。但其价格较高,一般实验室难以承受大批量样本的实验;另外,数据量巨大,数据处理也是难点。有没有较经济、又适合大样本的方法呢?有!那就是基于marker基因扩增子高通量测序的功能预测。上次卢瑟菌给大家介绍了根据真菌ITS序列预测真菌群落功能的工具——FUNGuild
今天,卢瑟菌就和大家介绍基于原核16SrDNA高通量测序结果对微生物群落功能(function)或表型(phenotype)进行预测的四种方法——PICRUSt、Tax4Fun、FAPROTAX及BugBase。
1PICRUSt
简介
PICRUSt全称为Phylogenetic Investigationof Communities by Reconstruction of Unobserved States,由Langille等人于2013年开发,文章发表在Nature Biotechnology上(Langille et al. 2013)。它是最早被开发的基于16S rRNA基因序列预测微生物群落功能的工具,包括在线版(http://huttenhower.sph.harvard.edu/galaxy/root?tool_id=PICRUSt_normalize)和基于MacOS X或Linux系统的下载安装版(http://picrust.github.io/picrust/install.html#install)。
原理
如图1所示,其预测过程分两步:
(1)基因内容预测(gene content inference)。该步先对Greengenes数据库的“closed reference”序列划分OTU后构建进化树,通过祖先状态重构(Ancestralstate reconstruction)算法并结合IMG/M数据库,预测出树中未进行全基因组测序OTU的基因组信息。
(2)宏基因组预测(metagenome inference)。将16SrDNA测序结果与Greengenes数据库进行比对,挑选出与“closed reference”数据库相似性高的(默认为≥97%)OTU;根据OTU对应基因组中16SrDNA的拷贝数信息,将每个OTU对应序列数除以其16S拷贝数来进行标准化;最后,将标准化的数据乘以其对应的基因组中基因含量从而实现宏基因组预测的目的。获得的预测结果可以通过KEGG Orthology、COGs或Pfams等对基因家族进行分类。
图1 PICRUSt预测微生物功能原理流程图(Langille et al. 2013)
特点
(1)因开发者当初开发PICRUSt时基于Greengenes数据库为参考,用该分析时只识别16S序列与Greengenes数据库(GG13.5或GG12.5)比对的结果;
(2)预测结果的准确度可通过参数NSTI(Nearest Sequenced Taxon Inde