微生物差异丰度分析方法的综合评价：现状及潜在解决方案

本文链接：https://blog.csdn.net/qq_43611382/article/details/126529372

微生物差异丰度分析方法的综合评价：现状及潜在解决方案

原文〉A comprehensive evaluation of microbial differential abundance analysis methods: current status and potential solutions
网址〉https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-022-01320-0
发表〉2022 年 8 月 19 日
翻译〉雪垆，2022 年 9 月 2 日
代码R〉https://github.com/chloelulu/DAA

半参数模拟方法和 ZicoSeq 过程分别在 CRAN GUniFrac包 ( https://CRAN.R-project.org/package=GUniFrac ) 中实现为“SimMSeq”和“ZicoSeq”函数。
ZicoSeq〉https://cran.r-project.org/web/packages/GUniFrac/vignettes/ZicoSeq.html

摘要

背景

差异丰度分析(DAA)是微生物群数据分析中的一项核心统计任务。一个强大的DAA工具可以帮助确定高度自信的候选微生物，以进行进一步的生物学验证。过去十年中，针对微生物群数据的特殊特征(如零膨胀和组成效应)，提出了许多DAA工具。令人不安的是，不同的DAA工具有时可能会产生非常不一致的结果，从而有可能选择支持自己假设的工具。 为了向实地推荐最佳DAA工具或做法，迫切需要进行全面评估，涵盖尽可能多的生物学相关情景。

结果

我们使用基于真实数据的模拟对现有DAA工具进行了迄今为止最全面的评估。我们发现，明确解决成分效应的DAA方法，如ANCOM-BC、Aldex2、meta genomseq(fitFeatureModel)和DACOMP，在假阳性对照中确实有所改善。但它们仍不是最优的：在许多情况下观察到了type 1 错误膨胀或低统计能力。最近的LDM法通常具有最好的效力，但在存在强成分效应的情况下，其假阳性控制并不令人满意。总体而言，没有一种评估方法同时具有稳健性、强大性和灵活性，这使得选择最佳DAA工具变得困难。为了满足分析需要，我们利用现有DAA方法的优势，设计了一种优化程序ZicoSeq 。我们表明，ZicoSeq通常可以控制各种设置下的假阳性，其功效属于最高之列。将DAA方法应用于大量真实数据集揭示了模拟研究中观察到的类似模式。

结论

基于基准研究，我们得出结论，所评估的现有DAA方法没有一个可以盲目地应用于任何真实的微生物组数据集。现有DAA方法的适用性取决于具体的设置，而这些设置通常是先验的。为了规避在实践中选择最佳DAA工具的困难，我们设计了ZicoSeq，它解决了DAA的主要挑战并弥补了现有DAA方法的缺点。ZicoSeq可以应用于不同环境下的微生物组数据集，是一个有用的DAA工具，可用于强大的微生物组生物标志物的发现。

视频摘要：

背景

由于人类微生物组在健康和疾病中的潜在重要作用，在过去十年中受到了极大的关注[1]。各种情况和疾病，如肥胖症、炎症性肠病和结肠直肠癌，已被证明与人类肠道微生物组的变化有关[2,3,4]。肠道微生物组也被证明可以预测癌症的治疗结果，刺激了癌症研究人员追求新的癌症治疗模式的热情[5, 6]。借助于高通量基因组测序技术，如16S rRNA基因靶向扩增子测序和鸟枪法宏基因组测序，微生物组的组成可以很容易地被剖析和分析[7]。在使用选择的生物信息学 pipeline 处理序列 reads 后，如DADA2[8]用于16S靶向测序，MetaPhlAn2[9]用于鸟枪法宏基因组数据，生成丰度表，记录检测到的微生物类群的频率。然后，根据分类群丰度表和捕捉样本级特征的宏数据进行下游统计分析。一个核心的统计任务是差异丰度分析（DAA），其目的是识别丰度与感兴趣的变量相关联的微生物分类群。确定的微生物类群可以提供对疾病机制的生物学见解，并有可能被探索为疾病预防、诊断和治疗的生物标志物[10]。因此，迫切需要一个强大的DAA工具来产生可靠的微生物组生物标志物，提高微生物组研究的可重复性，并最终降低开发成本。

由于微生物组测序数据的复杂数据特征，微生物组数据的差异丰度分析面临着许多统计上的挑战[11, 12]。首先，微生物组丰度数据是高度可变的，一个特定分类群的丰度可能在几个数量级之间。如此大的变异性使统计能力下降，需要强有力的方法来对数据的变异性进行适当的建模。其次，微生物组丰度数据是零膨胀的^[12,13,14]。在一个典型的微生物组数据集中，超过70%的数值是零。零可能是由于物理上的缺失（结构性零），也可能是采样力度不够（采样性零）[13,14]。由于零点的性质不同，需要对零点进行仔细处理，以达到稳健的统计推断 [13, 14] 。对于那些低丰度的类群，当它们的丰度低于检测极限时，它们将在数据中显示为缺失。 因此，低丰度类群的存在/不存在[13, 14]高度依赖于总 reads（测序深度）。这对差异丰度分析有重大影响。当测序深度与感兴趣的变量相关时，即使在读数被归一化后，那些低丰度类群也可能出现差异丰度[15]。第三，微生物组数据是有成分的 [15,16,17] 。我们所知道的是相对丰度，因为总 reads不能反映采样点的微生物负荷¹ [17,18]。采样点的一个分类群（绝对）丰度的增加或减少将导致样品中其他分类群的相对丰度的明显变化。由于缺少关于微生物总负荷的信息，这种组成效应使得识别 "驱动 "类群特别具有挑战性。尽管所有的测序数据在本质上都是构成性的[19]，但在大量低丰度类群中存在几个高丰度类群，使得微生物组数据的构成效应更加明显。

在没有任何假设的情况下，组成数据的DAA并没有很好的定义。考虑一个有四个物种的假设群落，它们在采样点的基线绝对丰度为每单位体积7、2、6和1000万个细胞。经过实验处理后，丰度变为每单位体积2、2、6和1000万个细胞，其中只有第一个物种是有差异的。处理前后的成分分别为（28%、8%、24%和40%）和（10%、10%、30%和50%）。现在假设处理前四个物种的绝对丰度是已知的（7，2，6，10），处理后观察到的成分同样可以用（2，2，6，10），（7，7，21，35），或（20，20，60，100）处理后每单位体积的百万细胞来解释。因此，仅根据组成数据，同样有可能存在一个、三个或四个不同的分类群。然而，如果我们假设信号是稀疏的（即，有差异的分类群的数量很少），我们可以得出结论，第一个物种有差异是最有可能的情况。稀疏性假设已被隐含在那些处理组成效应的方法中。

在过去的十年中，已经开发了相当多的DAA方法。这些方法主要在解决零膨胀(Zero inflation)和成分效应(Compositional effects)的方式上有所不同。为了解决零膨胀问题，人们提出了过度分散的计数模型和零膨胀的混合模型/Hurdle模型。在过度分散计数模型中，计数由一个带有过度分散参数的参数模型来模拟，该参数控制数据的可变性以及稀疏程度。例如负二项模型（edgeR[20]和DESeq2[21]）、β-二项模型（corncorb[22]）和准泊松模型[23]。这些计数模型隐含地假设所有的零都是由于测序深度不够而导致的采样零。虽然这种假设对于绝大多数低丰度类群来说是合理的[14]，但那些丰度类群的零点可能并不能完全由采样不足来解释[24]。相比之下，包括零点的混合成分的混合模型更加灵活；它假设数据中同时存在采样和结构零点。结构零分量的额外参数大大增加了对零膨胀计数的建模能力。然而，混合模型的缺点是，当没有真正的零膨胀时，即零分量没有必要时，由于过度拟合而增加的计算负担和潜在的功率损失。过度拟合也可能导致计算的不稳定性，因为在参数空间中可能存在多个最优值。零膨胀混合模型的例子包括零膨胀的对数正态/正态混合模型（metagenomeSeq[25]和RAIDA[26]），零膨胀的β-二项式模型（ZIBB[27]）和零膨胀的负二项式模型（Omnibus test[24]）。RioNorm2[28]使用数据驱动的方法，在零膨胀泊松模型和零膨胀负二项模型之间进行选择。作为混合模型的替代品，障碍模型[29, 30]也被提出来执行DAA。障碍模型将抽样零点和结构零点放在一起，不区分这两类零点。此外，对于研究比例数据的方法，贝叶斯方法已经被用来估算零点，考虑到采样变异和测序深度变异。例如，ALDEx2[31]通过假设比例的非信息性先验Dirichlet分布和观察到的计数的多叉抽样过程来推断基础比例。eBay[32]使用具有信息性先验的经验贝叶斯方法，根据数据进行估计，以提高估计效率。另一方面，MaAsLin2[33]和ANCOM-BC[34]使用伪计数方法来计算零值。当一个共同的伪计数被添加到所有的计数中时，这个过程就等同于假设了非信息先验的贝叶斯方法。最后，对于不涉及对数转换的方法，也可以不处理零点，如LDM[35]和DACOMP[36]中。

组成效应(Compositional effects)是DAA面临的另一个主要挑战[15,16,17,18,19]。组成效应的严重性取决于微生物群落的多样性、不同分类群的百分比以及它们的丰度、效应大小和变化方向。已采用不同的策略来解决组成效应。这些策略可以大致分为四类。第一类是基于稳健的归一化（表S1），在假设有稀疏信号的情况下，计算归一化因子或大小因子，以尽可能地掌握非差异部分的测序工作[37]。然后，归一化因子可以作为基于计数的模型中的偏移量，或者作为除数来产生归一化的丰度数据。与总和比例（TSS）归一化相比，当适量的分类群有差异时，鲁棒归一化不容易受到成分的影响[37]。在edgeR[20]、DESeq2[21]、metagenomeSeq[25]、ALDEx2[31]和Omnibus test[24]中，分别使用了M值的修饰平均数(TMM)、相对对数表达(RLE)、累积总和缩放(CSS)、居中对数比转换(CLR)和对数比的几何平均值(GMPR) [37]。Wrench[38]归一化通过经验贝叶斯方法纠正组成偏差，这在metagenomeSeq[39]中被推荐。第二类使用参考分类群的方法，其目的是找到一个分类群或一组分类群，这些分类群相对于感兴趣的条件来说是不变化的。然后利用与参考分类群/taxa的丰度比来进行DAA。RioNorm2[28]依靠基于网络的归一化来寻找相对不变的分类群。DACOMP[36]选择一组在DAA前最不可能出现差异的参考类群，而RAIDA[26]找到一个在DAA中发现最少的参考类群。差异化排名方法[17]利用了类似的参考类群思想。第三类是基于分析ANCOM[18]中实现的配对对数比的模式。这种策略依赖于这样一个事实，即那些非差异性类群与其他类群的对数比大多是非差异性的，而那些差异性类群的对数比都是差异性的，假设效应大小不同。因此，通过分析成对的对数比的模式，可以很有把握地恢复出有差异的类群。DACOMP[36]也使用这种方法来选择参考类群。最后一类是利用了新颖的偏差校正思想。ANCOM-BC[34]使用这种方法来估计一个（未知的）特定样本的偏移项，以纠正由于组成效应导致的不平等采样努力所造成的偏差。

众多的DAA方法让终端用户眼花缭乱。关于一个人的特定数据集的最佳DAA方法出现了许多问题。到目前为止，还没有向终端用户明确提供一致的建议[15, 40, 41]，而且迫切需要对现有方法进行全面的基准研究。我们认为，一个理想的DAA方法应该具备以下特性：