|撰文:阿拉雷
回想当年,刚踏足科研领域,心中豪气万丈,幻想着努力发发发paper,从此走上人生巅峰......
但当拿到微生物群落研究报告时却瞬间傻了眼,PCA、PCoA、NMDS、CCA、RDA各种长的差不多,细节上却又千差万别的分析方法看得我头晕眼花,更别提还要从中挑选出一个适合自己研究领域的分析方法。
为了让各位不再经历类似的窘境,我在这里为大家详细介绍文章中最常见的几类分析方法的原理及图形解读。
|核心思想-降维
首先我们要明白一个概念:降维。
无论是主成分分析(PCA)、主坐标分析(PCoA)、非度量多维尺度分析(NMDS),还是冗余分析(RDA)、典范对应分析(CCA)都属于降维排序分析方法。
之所以需要降维,是因为我们检测的样本中往往包含着上百种微生物,为了分析样本与样本间的相似性,我们需要将所有物种进行逐一对比,即以一个物种为一个维度进行比较,那么假设样本有100种微生物,我们就需要100维坐标才能够比较获得两个样本间微生物数据整体的相似性。
遗憾的是,我们无法理解100维的数据,因此我们需要借助降维的手段在低维平面上对目标数据进行排序,最大程度上使得相似的目标距离近,相异的目标距离远,方便后续的统计分析。(不禁想起《三体》中,银河系遭受二向箔武器打击,从3维跌落至2维,最终被拍扁成为一幅画的场景)。
该如何实现数据降维?降维过程可以理解为一个投影的过程,举例说明:如图1,共检测6个样本(S1-S6)的微生物数据,每个样本包含3种微生物(Sp.A、B、C),通过将三个物种转换为坐标维度,我们发现,在A轴这个投影维度上,6个样本数据区分效果最强,B轴上稍弱,而在C轴上所有点都在一个位置,区分不开,那么采用A轴和B轴为横纵坐标即可将原先三维的数据降维到二维平面上。