一个基于宏基因组或扩增子序列预测代谢组的工具 - Melonnpan
摘要
菌群代谢组学,特别是在人类肠道中的代谢组学,开始提供一条新的途径来鉴定疾病中的功能和破坏的生态。然而,这些数据的成本很高,很难大规模获得,而扩增子或鸟枪法宏基因组测序数据对于成千上万的人群来说是现成的。在这里,描述了一个计算方法,以预测新的微生物群落中潜在的不可观察的代谢产物,给予一个模型上训练的配对代谢组和宏基因组。还提供了预期性能评分,以指导模型在新样本中的应用。预测代谢组学方法可以帮助实验设计,且当只有宏基因组数据可用时,提供成千上万的微生物群落中有效的关于代谢组学的见解。
一图总览
a.MelonnPan 是从扩增子或宏基因组推断微生物群落代谢物特征的预测模型。可对 MelonnPan 模型进行训练,以推断给定的特定微生物群落类型的代谢产物谱。首先,来自目标环境的由配对宏基因组 (X) 和代谢组 (Y) 组成的训练数据集合。该模型适合从训练宏基因组衍生的微生物序列特征开始。它使用每个代谢产物的弹性网正则化回归,以确定其丰度预测该代谢产物的最小微生物特征集。使用交叉验证对这些个体进行检查,并标出不适合的代谢物(样本间实测和预测代谢物丰度之间的 Spearman 相关系数 < 0.3)。
b.预测良好的代谢物序列特征的系数 (W),可应用于新的宏基因组,预测相关代谢物特征(Y,以