16S高通量测序的群落数据分析中,更深层次的数据挖掘是很重要的一环,但是微生物群落标记基因测序的一个局限性就在于它无法提供有关采样群落功能组成的信息。所以我们引入了功能预测分析.
“功能”通常指的是基因家族,如KEGG同源基因和酶分类号,但可以预测任何一个任意的特性。同样,预测通常基于16S rRNA基因测序数据,但也可以使用其他标记基因。
正常来说,进行功能分析有多个研究方法可选:
- 基于16S分析进行功能预测
- 功能基因扩增分析
- 宏基因组/宏转录组等全基因组分析
PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States) 是一个从标记基因(一般是16S rRNA)测序数据预测功能丰度的软件。
一、PICRUSt2方法的优势
- PICRUSt2方法由系统发育位置,隐藏状态预测以及按样本的基因和途径丰度列表组成。 将OTU/ASV序列和丰度两个文件作为输入,并输出基因家族和途径丰度。 PICRUSt2实现中包含默认工作流的所有必需参考树和特征数据库。
- PICRUSt1流程将预测限制为Greengenes参考数据库中的OTU/ASV。 这项要求导致排除了其他16S rRNA基因测序数据集中的许多公开序列。PICRUSt2放宽了此要求,并且与输入序列是否在参考数据库内无关,这几乎使所有用户的OTU/ASV都保留在最终输出中。
- 与PICRUSt1相比,默认PICRUSt2数据库中的物种分类学多样性有所增加,其中种增加近5倍,基因组增加10倍。
二、PICRUSt2方法原理
PICRUSt2集成了现有的开放源代码工具,以预测环境采样的16S rRNA基因序列的基因组。 OTU/ASV放置在参考树中,该