原来你是这样的排序分析
杨慧 宏基因组 2017-12-16
微生态相关文献中都经常出现。这些分析成图相似,且都是通过样本点之间的距离反映样本间菌群结构的相似性和差异性。因此很多研究人员纠结于如何选择恰当的排序方法来研究自己的测序数据或展示自己的研究结果?
今天就由小美手持放大镜,咱们一起领略排序分析的新视界......
排序分析的异同点?
PCA、PCoA和NMDS分析属于非约束性排序分析,而RDA/CCA和db-RDA分析属于约束性排序分析,即分别是在环境因子的约束条件下进行的PCA和PCoA分析。因此,一般主要利用PCA、PCoA或NMDS分析进行样本比较,反映样本间菌群结构的相似性和差异性,从而分析组间样本能否明显区分开;而RDA/CCA和db-RDA分析则多用来阐述环境因子对样本菌群结构变化的影响,不仅可以反映样本、物种和环境因子之间的相关性,而且可以找出对物种分布变化影响程度较大的环境因子。
小美还贴心的为您总结了这“5胞胎”的异同点:
距离算法为何会影响排序结果?
很多人在对数据进行分析时会惊奇的发现,PCoA和db-RDA分析选择不同的距离算法会产生不同或类似的结果,WHY?
我们以PCoA分析为例:
图注:4种距离的PCoA分析。不同颜色代表不同的样本组别
同一数据,小美分别选择了euclidean,weighted _unifrac,binary_euclidean和unweighted_unifrac这4种距离进行分析,结果发现后2种距离可以将3组样本明显区分开来,且组内差异较小;反之,前2种距离区分效果不佳。
究其原因,在于前2种距离除此之外还考虑了物种在各个样本中的丰度分布,而后2种距离只考虑了样本中物种存在与否。因此在只考虑样本中物种是否存在时能够将不同的样本组区分且组内差异较小。那么后续针对这种数据类型是选择只考虑物种有无的距离算法将获得更佳的聚类效果,反之亦然。
PCA添加环境因子与RDA有何区别?
PCA分析也是可以添加环境因子的。那我做个带环境因子的PCA不就O啦,为啥还要进行RDA分析呢?
如下图所示:
图注:不同颜色代表不同的样本组别
使用同一数据分别进行PCA和RDA分析。小美无论选择多少环境因子对PCA排序结果是没有任何影响的;而RDA分析中选择不同的环境因子可得到不同的排序结果。
出现这种情况的结果的原因是PCA分析作为非约束性排序,环境因子加入并不会影响样本间菌群差异获得的排序结果;而RDA分析是在所选择的环境因子的约束条件下进行的PCA分析,因此选择不同的环境因子组合会产生的不同的排序分析结果。
高能预警!!!排序分析文献大放送啦!让我们看看科研人员们都是如何选择排序分析的......
1. PCA分析
Title:Impacts of addition of natural zeolite or a nitrification inhibitor on antibiotic resistance genes during sludge composting
DOI.org/10.1016/j.watres.2016.01.0