统计分析/PCA,PCoA,NMDS等的区别

相信大家在做微生物多样性研究时经常听到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们对物种(或基因、功能)的分析具有重要作用,因而频频出现在16S测序及宏基因组测序中。那么你知道这些分析之前到底有什么区别吗?在什么情况下应该用什么分析呢?今天小编就给大家讲讲其中的奥秘。首先,以上分析本质上都属于排序分析(Ordination analysis)。排序(ordination)的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样方,使得样方之间的距离最大程度地反映出平面散点图内样方之间的关系信息。常用的排序方法如下:

​​​​1、只使用物种组成数据的排序称作 非限制性排序(unconstrained ordination)(1)主成分分析(principalcomponents analysis,PCA)(2)对应分析(correspondenceanalysis, CA)(3)去趋势对应分析(Detrended correspondence analysis, DCA)(3)主坐标分析(principal coordinate analysis, PCoA)(4)非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)2、同时使用物种和环境因子组成数据的排序叫作 限制性排序(constrainedordination)(1)冗余分析(redundancyanalysis,RDA)(2)典范对应分析(canonicalcorrespondence analysis, CCA)让我们来仔细看看PCA与PCoA分析:在非限制性排序中,16S和宏基因组数据分析通常用到的是PCA分析和PCoA分析。两者的区别在于:PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。在PCoA分析中,计算距离矩阵的方法有很多种,例如图1所示的Euclidean, Bray-Curtis, and Jaccard,以及图2显示的(un)weighted Unifrac (利用各样品序列间的进化信息来计算样品间距离,其中weighted考虑物种的丰度,unweighted没有对物种丰度进行加权处理)

图1 Euclidean, Bray-Curtis, and JaccardPcoA图

图2 (a) weighted Unifrac PCoA分析

PCoA1维度将根内样品与根周边和土壤样品很好的分开;而PCoA2能够将不同土壤的样品很好的区分开来;(b)用pairwise-Bray-Curtis相似度对样品进行聚类。再来看看CCA与RDA分析:限制性排序主要有CCA分析和RDA分析。RDA基于线性模型,CCA则是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是,如果CCA排序的效果不太好,就可以考虑换做用RDA分析。RDA或CCA选择原则:先用species-sample资料做DCA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应选CCA;如果在3.0-4.0之间,选RDA和CCA均可;如果小于3.0, RDA的结果要好于CCA。图3是CCA分析图,图中箭头代表不同的环境因子,射线越长表示该环境因子影响越大。环境因子之间的夹角为锐角时表示两个环境因子之间呈正相关关系,钝角时呈负相关关系。

图3 CCA分析图

​读完这些,您理解了PCA、PCoA、NMDS、CCA、RDA之间的区别和联系吗?是不是觉得很涨姿势呢?

最后,附上一张文献里的图PCoA (本图在QIIME中完成的)

Bacterial community structure and variation in a full-scale seawaterdesalination plant for drinking water production

 


### 回答1: PCA(Principal Component Analysis)/PCoA(Principal Coordinates Analysis)图是一种数据可视化工具,用于显示多个样本之间的相似性和差异性。这些图通过对高维数据进行降维,将其映射到二维或三维空间中,从而可视化样本间的差异性。PCA/PCoA图可以应用于多种领域,例如生物学、化学和物理学等,用于分析和解释不同样本之间的相似性和差异性。 ### 回答2: PCA(Principal Component Analysis)和PCoA(Principal Coordinate Analysis)图都是用来可视化多变量数据集中的样本间相似性或差异性的方法。 PCA图是通过将多维数据降维到少数几个主成分来展示数据的结构和样本之间的关系。在PCA中,数据通过线性变换从原始空间投影到新的坐标空间中。新坐标空间的各个维度(主成分)是原始数据中方差最大的方向,对应着数据中最重要的信息。因此,PCA图能够帮助我们发现数据集中的主要模式和趋势,以及样本在这些主要特征上的相似性和差异性。 PCoA图与PCA图类似,也是通过降维来展示多变量数据集中的样本关系。不同之处在于,PCoA图是基于距离矩阵进行计算的,而不是直接使用原始数据。PCoA将样本之间的距离信息保留在降维后的坐标中,使我们能够更好地理解样本之间的相似性和差异性。 无论是PCA图还是PCoA图,它们都能帮助我们发现样本之间的模式和结构,从而帮助我们更好地理解和解释数据。这些图形方法可以应用于各种领域,如生物学、化学、地理学等,在分类、聚类、相似性分析等研究中发挥着重要作用。 ### 回答3: PCA(主成分分析)和PCoA(主坐标分析)图是用于对多元数据进行降维、可视化和聚类分析的重要工具。 PCA是一种数学统计方法,通过线性变换将多维数据降低为较低维度的数据,以便更容易理解和解释。PCA图揭示了多变量数据中的主要成分,并提供了这些成分之间的关系。在PCA图中,每个数据点代表一个样本,它们根据其在主成分上的投影位置被定位。距离主成分越远的点表示为在数据集中具有更大的变化和重要性。 PCoA是一种对相异性矩阵进行多维缩放的方法,用于计算样本间的相对距离。PCoA图将样本点在二维或三维空间中进行可视化,以显示样本间的相对相似性和差异性。在PCoA图中,样本点之间的距离越远,表示它们之间的相似性越低。相反,距离越近的样本表示它们之间的相似性越高。 综上所述,PCAPCoA图提供了一种直观的方法来理解和解释多元数据。它们可以用于发现样本之间的分组趋势,揭示数据中的潜在模式,并帮助进一步分析和解释复杂数据集。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值