常用排序分析方法
相信大家在做微生物多样性研究时经常听到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们对物种(或基因、功能)的分析具有重要作用,因而频频出现在16S测序及宏基因组测序中。以上分析本质上都属于排序分析(Ordination analysis)。
排序分析(ordination analysis),最早是生态学(ecology)中研究群落(communities)的一大类多元分析手段,将某个地区调查的不同环境(site)以及所对应的物种组成(species),按照相似度(similarity)或距离(distance)对site在排序轴上(ordination axes)进行排序,将其表示为沿一个或多个排序轴排列的点,从而分析各个site或species与环境因子之间的关系。其目的是把多维空间压缩到低维空间(如二维),并且保证因维数降低而导致的信息量损失尽量少,实体(site或species)按其相似关系重新排列,提高其可理解性(interpretability);同时,通过统计手段检验排序轴(ordination axes)是否能真正代表环境因子的梯度(gradient)1。
因此,排序分析的作用可以总结为两个方面:①降维;②探索性分析;
常用的排序方法如下2:
排序分析方法
Raw data based (线性模型)
Raw data based (单峰模型)
Distance based
间接排序法 (非限制性)
PCA
CA,DCA
PCoA,NMDS
直接排序法 (限制性)
RDA
CCA
dbRDA
其中间接排序法包括:
PCA(principal components analysis,主成分分析)
CA(correspondence analysis,对应分析)
DCA(Detrended correspondenceanalysis, 去趋势对应分析)
PCoA(principal coordinate analysis,主坐标分析)
NMDS(non-metric multi-dimensional scaling,非度量多维尺度分析);
直接排序法包括:
RDA(Redundancy analysis,冗余分析)
CCA(canonical correspondence analysis,典范对应分析)
dbRDA(distance based redundancy analysis,基于距离的冗余分析)