16S rRNA OTU标准聚类阈值(97%)过时了?
16S rRNA普遍应用于环境微生物多样性分析,OTU是微生物多样性分析中的一个基本概念,在得到质控后的数据后,我们要做的第一件事情就是进行OTU的聚类。目前OTU的聚类方法与软件有很多种,这些方法都会用97%的相似性对序列进行种水平的聚类,然而97%的阈值是在1994年基于当时少量的16S rRNA序列提出的,是否适用于当前大量的16S rRNA数据呢?
近期Bioinformatics上发表的文章 Updating the 97% identity threshold for 16S ribosomal RNA OTUs 对这个问题展开了一系列研究,通过使用mothur软件中5种代表性的聚类算法和4种评估聚类质量的指标对不同聚类阈值的聚类结果进行比较,结果表明16S全长和V4区的理论最优聚类阈值接近99%和100%,下面就具体看看作者的做了哪些工作。