nmds与mds的区别_常见分析方法 | PCA、PCoA和NMDS有什么区别?

|撰文:阿拉雷

回想当年,刚踏足科研领域,心中豪气万丈,幻想着努力发发发paper,从此走上人生巅峰......

但当拿到微生物群落研究报告时却瞬间傻了眼,PCA、PCoA、NMDS、CCA、RDA各种长的差不多,细节上却又千差万别的分析方法看得我头晕眼花,更别提还要从中挑选出一个适合自己研究领域的分析方法。

为了让各位不再经历类似的窘境,我在这里为大家详细介绍文章中最常见的几类分析方法的原理及图形解读。

|核心思想-降维

首先我们要明白一个概念:降维。

无论是主成分分析(PCA)、主坐标分析(PCoA)、非度量多维尺度分析(NMDS),还是冗余分析(RDA)、典范对应分析(CCA)都属于降维排序分析方法。

之所以需要降维,是因为我们检测的样本中往往包含着上百种微生物,为了分析样本与样本间的相似性,我们需要将所有物种进行逐一对比,即以一个物种为一个维度进行比较,那么假设样本有100种微生物,我们就需要100维坐标才能够比较获得两个样本间微生物数据整体的相似性。

遗憾的是,我们无法理解100维的数据,因此我们需要借助降维的手段在低维平面上对目标数据进行排序,最大程度上使得相似的目标距离近,相异的目标距离远,方便后续的统计分析。(不禁想起《三体》中,银河系遭受二向箔武器打击,从3维跌落至2维,最终被拍扁成为一幅画的场景)。

该如何实现数据降维?降维过程可以理解为一个投影的过程,举例说明:如图1,共检测6个样本(S1-S6)的微生物数据,每个样本包含3种微生物(Sp.A、B、C),通过将三个物种转换为坐标维度,我们发现,在A轴这个投影维度上,6个样本数据区分效果最强,B轴上稍弱,而在C轴上所有点都在一个位置,区分不开,那么采用A轴和B轴为横纵坐标即可将原先三维的数据降维到二维平面上。

图1 降维原理示意图

主成分分析 | Principal Components Analysis,PCA

PCA分析就是降维思想的具体实践,PCA分析方法在19世纪被提出,并广泛应用于各类数据统计中。

PCA采用降维的思想,将组成复杂的数据信息(样本中包含大量物种信息,没有已知的坐标轴可以解释分布)进行降维排序,寻找能最大程度反应规律的坐标系。

如图2所示,如果将每个样本看成空间中的一个小球,小球在空间中根据相似程度分布,PCA分析就如同拿着一盏灯照向这些小球, 将小球投影在一个平面上。不断调整光源照射角度,找到能够最大程度展示小球在空间中原本分布状态的平面,该平面上小球投影的画面即PCA分析结果。图2 PCA原理示意

然而PCA分析存在着自身的局限性,PCA分析需基于线性模型(linear model)开展,所谓线性模型就是假设物种丰度伴随着环境变量的变化做出线性变化的响应(如图3左图),这种模型使用范围较为有限。

在实际环境中,微生物丰度通常呈现单峰模型(unimodal model),该模型假设在一定范围内微生物丰度随环境因素上升而增加,但到达临界值后,若环境因子指标继续增加,微生物丰度则出现下降。

例如大部分细菌都有一个生长最适温度范围,超过这个最适温度后,细菌的生长会受到抑制。因此,PCA分析不适合用于物种丰度变化范围大,或环境梯度变化大的样本中(自然环境取样通常变化范围较大)。

图3 线性模型(左)、单峰模型(右)示意

主坐标分析 | principal co-ordinates analysis,PCoA

PCoA分析同样采用降维的思想对样本关系进行低维平面的投影,不同的是,PCA分析是对样本中物种丰度数据的直接投影,而PCoA则是将样本数据经过不同距离算法获得样本距离矩阵的投影,在图形中样本点的距离等于距离矩阵中的差异数据距离。

因此,PCA图形是一种同时反映样本与物种信息的biplot,而PCoA图形则是一类仅对样本距离矩阵进行降维的非biplot。

PCoA常用于微生物β多样性分析中,β多样性的衡量指标是样本相似距离值,相似距离值的算法有很多种,常见的距离类型有:Jaccard、Bray-Curtis、Unifrac等。各类距离具体计算原理参考《微生物β多样性常用计算方法比较》。

PCoA分析是将空间中样本间的相似距离映射至二维平面上加以呈现。简单来说就是将样品间的距离在坐标轴上进行不同角度投影,找到最能够反映原始距离分布的前两个坐标轴进行数据输出。

如图4所示,与PCA不同的是,PCoA是对样品间距离(连线)的投影,在二维平面上展示的是样品间距离的信息,而不是样品的位置信息。图4 PCoA原理示意

PCoA是基于样本间相似性距离的分析,它的结果受相似性距离计算方式的影响,因此不同相似性距离计算方式对PCoA结果影响较大。

非度量多维标度分析法 | Non-metric multidimensional scaling,NMDS

NMDS分析与PCoA分析的相同点在于两者都使用样本相似性距离矩阵进行降维排序分析,从而在二维平面上对样本关系做出判断。

不同于PCoA分析,NMDS弱化了对实际距离数值的依赖,更加强调数值间的排名(秩次),例如三个样本的两两相似性距离,(1,2,3)和(10,20,30)在NMDS分析上的排序一致,所呈现的效果相同。

NMDS分析的运行过程如下:

1. 设定分析维度(通常为2维平面);

2. 构建初始结构,放置距离数值(输入数据);

3. 根据设定距离数据与原数据比较,判断模型适合程度(Stress判断):

rij:原始距离矩阵中的距离排名;Rij:数据的2D或者3D图形的样本间距离排名;S(Stress)是判断新建模型与原始数据的一致性情况,s= [0,1)。理想状态下,新建模型距离排名与原数据一致,则S=0。

4. 不断调整对象位置,直至stress数值不再减少,或已达到预定的值。

通过Stress值判断模型的优劣,通常stress<0.1表示模型可以被接受,数值越接近0模型效果越好。

图形解读

1. PCA图形

1)常见分析点:微生物群落研究的样本OTU分析。

2)输入的数据:样本OTU丰度表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间群落差异,通常来自不同环境的样本表现出各自聚集的现象。

5)横纵轴含义:图中的横纵轴分别代表了第一、第二主成分,PCA分析通过降维分析将输入其中的样本OTU信息从高纬度空间降维映射到以第一、第二主成分为坐标轴的二维平面。横纵轴上所标注的百分比即该主成分对样品OTU数据差异的贡献度,通常横轴百分比数值高于纵轴数值。图5 文章中的PCA分析结果图[1]

2. PCoA图形

1)常见分析点:微生物群落研究的β分析。

2)输入的数据:样本相似性距离表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本点距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间样本距离差异,异质性强的样本距离越远。样本相似性距离计算方式对结果有影响,选择输入不同相似性距离值矩阵,得到的结果存在着不同程度的差异。

5)横纵轴含义:图中的横纵轴分别代表了第一、第二主坐标。PCoA分析通过降维分析将输入其中的样本间相似性距离矩阵降维映射到以两个主坐标构成的二维平面。横纵轴上所标注的百分比即该主坐标对样品矩阵矩阵数据差异的贡献度,通常横轴百分比数值高于纵轴数值。图6 文章中的PCoA分析结果图[2]

3. NMDS图形

1)常见分析点:微生物群落研究的β分析。

2)输入的数据:样本相似性距离表格。

3)图形类型:散点图。

4)图形解读:图形中的点代表样本,不同颜色/形状代表样本所属的分组信息。同组样本点距离远近说明了样本的重复性强弱,不同组样本的远近则反应了组间样本距离在秩次(数据排名)上的差异。样本相似性距离计算方式对结果有影响,选择输入不同相似性距离值的矩阵,得到的结果存在着不同程度差异。

5)横纵坐标轴含义:NMDS是距离值的秩次(数据排名)信息的评估,图形上样本信息仅反映样本间数据秩次信息的远近,而不反映真实的数值差异,横纵坐标轴并无权重意义,横轴不一定比纵轴更加重要。NMDS整体降维效果由Stress值进行判断。

6)stress值含义:NMDS图形通常会给出该模型的stress值,用于判断该图形是否能准确反映数据排序的真实分布,stress值越接近0则降维效果越好,一般要求该值<0.1。图7 文章中的NMDS分析结果图[3]

小结

PCA、PCoA与NMDS都是以降维思想为核心的排序分析方法。PCA分析是对输入的OTU丰度原始数据的降维,而PCoA与NMDS则是基于各类型样本相似性距离的降维。表1 PCA、PCoA和NMDS的区别

PCA基于线性模型,仅适用于物种少,环境因素、物种丰度波动变化小的情况。PCoA与NMDS用于反映样本距离矩阵关系,不同点在于NMDS更侧重反映距离矩阵中数值的排序关系,弱化数值的绝对差异程度。在多样本、物种数量多的情况下(可进行排序的数量更大),stress值往往随着样本的复杂程度而减小,因此模型能更准确地反映出距离矩阵的数值排序信息。参考文献

[1] Hu, X., Du, J., Xie, Y. et al. Fecal microbiota characteristics of Chinese patients with primary IgA nephropathy: a cross-sectional study. BMC Nephrol 21, 97 (2020).

[2] Dethlefsen L, Huse S M, Sogin M L, et al. The Pervasive Effects of an Antibiotic on the Human Gut Microbiota, as Revealed by Deep 16S rRNA Sequencing[J]. PLOS Biology, 2008, 6(11).

[3] Liang Q, Li Z, Ou M, et al. Hypoimmunity and intestinal bacterial imbalance are closely associated with blue body syndrome in cultured Penaeus vannamei[J]. Aquaculture, 2020.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值