rda冗余分析步骤_微生物生态学中的多变量分析

2f2dfcba7a6cd230ea5ce1a810682a13.png

【论文题目】Multivariate analyses in microbial ecology

【期刊名称】FEMS Microbiology Ecology, 2007, 62:142-160

【全文链接】https://doi.org/10.1111/j.1574-6941.2007.00375.x

【第一作者】Alban Ramette

【通讯作者】Alban Ramette

【作者单位】德国马克斯普朗克海洋微生物研究所

摘要

由于越来越多的生物信息和相关环境参数的快速积累,环境微生物学正在经历一场巨大的变革。这不仅可以更好的识别多样性模式,而且可以更多地了解能够解释这种模式的相关环境条件、空间位置和季节变化。现在可以利用多变量统计分析解决复杂的生态问题,这是一项尚未完全开发但存在巨大潜力的技术。本文对行之有效的探索性分析和假说驱动分析的方法进行了评述,从而希望将它们广泛应用到微生物生态学家的研究方法中去。由于这些工具的目的在于降低数据集的复杂性,识别主要模式并推测因果关系,因此它们肯定会广泛地应用于微生物生态学中。

前言

微生物生态学正在经历一场深刻的变革,因为已经开始在小生境、区域,甚至大陆尺度上,对微生物群落结构-功能与它们生活环境之间的关系进行研究。随着大批高通量技术的迅速发展,如焦磷酸测序、单细胞基因组测序或者宏基因组学等,DNA序列正在以前所未有的速度进行积累,未来的挑战很可能是,根据相关环境参数解释所观测到的多样性模式。这将有助于回答微生物生态学中的基本问题,比如说,微生物多样性能否像大型生物多样性那样,对相同因子做出定性和定量的响应。

微生物生态学家试图总结并进一步探索大量数据集所遇到的大多数障碍,与选择合适的数值工具,从而进一步系统直观地分析这些数据有关。这些由群落生态学家开发的用于研究动植物分布和多样性模式的工具,同样可以应用于微生物生态学中。虽然文献中已经对群落多样性模式的多变量分析有充分的描述,但是微生物生态学家很少使用,或者主要是出于探索性分析的目才使用多变量分析。对文献的简要调查证实了这一趋势(表1,图1)。表1表明,在使用多变量分析方法的研究中,细菌研究排在植物和鱼类研究之后,位列第三。复杂的数据集主要是通过主成分分析或聚类分析进行探索,而由假设驱动的分析技术,如冗余分析、典范对应分析(CCA)或Mantel检验,则很少使用(图1)。轴1(水平轴)明确将微型生物(细菌、微生物、真菌)与大型生物(鱼类、鸟类、植物、昆虫)区分开来,这可能与第一组中使用更多的探索性分析方法(如聚类分析、PCA)有关。重要的是要指出,表1和图1中显示的数字必须谨慎使用,因为许多文章的标题或摘要中并不包括对统计方法的描述,因此该表格是存在偏见且不完整的。但是该表格的目的不仅是要确定文献中的一般趋势,还要给出说明多变量分析对数据表进行分析的有效例证。

表1. 多变量分析在不同研究领域的使用率(%)

4e80de7484095d30c737553751c1e2fb.png

2006年12月13日,使用Thomson ISI研究工具通过以下参数——文献类型:所有文件类型;语言:所有语言;数据库:SCI-EXPANDED,SSCI,A&HCI;Timespan,1900-2006——对文献(仅限文章的标题和摘要)进行检索;

在每个关键字的末尾加上*,以适应变化。每个关键字还附加了以下内容——技术名称:Cluster,聚类分析;PCA,主成分分析;MDS,多维尺度分析;PCoA,主坐标分析;CCA,典范对应分析;RDA,冗余分析;Mantel,Mantel检验;CVA,典范变量分析。

“Total number”指每个关键字及其所有组合标识的出版物的总数。基于原始数对应分析的排序如图1所示。

cfbd3ffd9a27be4bc6d4756076492091.png

图1. 不同科学领域使用的相应分析方法

在CA部分的对称尺度中,前两个轴分别解释了表1的总惯量的47.3%和35.8%。图中绘制了灰色区域进一步解释。表1给出了完整的行名(科学领域:实心圆圈)和列名(方法:白色三角)。彼此靠近的方法(三角形)对应于研究中经常同时出现的方法。科学领域点和方法点之间的距离近似于现场使用方法的概率。

这篇综述旨在介绍一些常见的多变量技术,以促进将它们应用到微生物生态学家的研究工具箱中。实际上,如果不具备多变量分析的知识,就不可能对生态学和系统学有完整全面的理解。或者反过来说,对方法的误解会阻止科学的发展。这样的综述是很有必要的,因为它试图为广泛应用但仍处于发展阶段的学科提供指导。但它不可能毫无遗漏低地悉数概括,也不可能系统深入地介绍所有选定主题。本文主要受启发于多份高度推崇的资料中的描述、评论和建议。

在第一部分,将数据类型和准备工作视为后续多变量分析的必要基础。其次,对于常见的多变量方法(例如聚类分析、主成分分析法、对应分析、多维尺度分析)和一些统计方法,检验组或聚类之间的显著性差异,重点聚焦在方法的主要目标、应用和局限性。第三部分,除了识别多样性模式外,微生物生态学家还希望通过利用测得的环境参数来关联或解释这些模式。重点介绍了一些已经在生态研究中证明有用的方法,如即冗余分析、CCA、线性判别分析以及方差分解。最后一部分提供了实际考虑,以帮助研究者们避开陷阱,选择最合适的分析方法。

数据类型和数据准备

数据集

初始多变量数据集可以由行中的对象表(例如样本、地点、时间范围)和列中的这些对象的测量变量组成。这种表结构是该综述中使用的标准。当后一个变量是生物分类单元时,其列则被指定为“物种”。关键是要清楚识别数据集中所对应的对象和变量。事实上,一项研究中的对象可能是物种或可操作分类单位(OTU),可对其进行分解代谢谱、基因存在或多态性等进行测量。在另一项研究中,例如基于群落印迹技术比较了来自不同站点的样本,此时的研究对象则是样本和物种变量。这种差别很重要,因为分析对象或变量之间关系的过程是不同的。在进行观察和可变测量之前,通过采样策略先验定义对象。此外,大多数多变量分析都假设对象(或样本)之间是独立的,即对一个对象进行的观察不是先验地依赖于对另一个对象进行的观察。然而,可以发现变量在各个程度上是相互关联的,但这不一定是事先已知的。在计算研究对象之间的成对差异时,初始数据集也可以由距离矩阵组成。原始数据的原始表格并非总是可用的(例如DNA-DNA杂交值,系统发育距离),因此必须考虑使用特定的多变量技术来处理数据矩阵。

数据转换

在多变量数据表中,测量变量可以是二进制、定量、定性、等级排序、类别、频率,甚至是这些类型的混合。如果变量没有统一的尺度(例如,以不同单位或尺度测量的环境参数)或适当的格式,则在执行进一步分析之前必须对变量进行转换。每个定性变量都必须重新编码为一组数值变量,以便于在数值计算中替换它。一种方法是创建一系列“虚拟”变量,这些变量与定性变量的所有状态相对应。例如,如果编码“季节”这个变量,要构建四个相关变量,当它发生在某一季节时,赋予该季节的值为1,而其他三个季节的值为0。许多统计软件包可自动完成这个编码。

标准化提供了无量纲的变量,并消除了尺度或单位之间大小差异造成的不良影响。常见的过程是将每个变量的值进行z-score法转换。对于每个变量,它包括:(1)计算原始数值与和所有变量平均值的差值,(2)再将这一差值除以原始变量的标准方差。

标准化转换旨在校正某些偏离正态变量的分布形态。因此,人们试图获得变量的齐次方差,在这种情况下,多变量统计分析的效果更好。可以使用不同的数学变换来标准化变量的x值:例如,可以将反正弦转换应用于百分比或比例数据、将log(x+c)应用于与正态分布强烈背离的变量、可应用于问题较少的变量,其中c为常数,从而避免数学上不确定的计算。通常选择常数c,以便通过在前一个函数中计算x+c来获得最小的非零值。该常数也应同变量具有相同的数量级。

群落组成(有无或丰度)的数据包含许多零值时,适合通过线性统计方法(例如主成分分析和典范冗余分析等)进行分析,五种数据转换方法之一Hellinger转换能提供良好的结果。弦变换也是一种有用的转换,可减少物种表中的稀有物种权重。这些转换公式如下:

ff3678e86cb0f68dafeeb923a94cf0ee.png

式中yij代表样本i中物种j的数值,代表样本yi+所有物种数值的加和(也就是每行的加和),p是表格中物种数(列的数量),yij'代表转换后的物种值。当稀有物种并非真正稀有时,即当它们大多是因为采样是随机进行时(如土壤或海洋微生物生态学中通常进行的采样),特别推荐使用这些转换。在Sokal & Rohlf (1995) 和Legendre & Legendre (1998)中,可以找到更多的数据转换方法。

如何处理缺失数据本身就是一门学科,简单地说,可以删除含有缺失值的行或列,或者尝试通过数据集中其他对象的值,推断估算出缺失值。在后一种情况下,对于这些估算,依旧很难为这些估算值提供具有生态学意义的解释。不论如何,研究者应该对缺失数据的具体处理进行记录。

探索性分析

复杂数据集的可视化和探索

排序和聚类分析的基本目的是基于与对象(样本、位点)相关联的多个变量(列)的值来表示它们之间的相似性或不相似性,因此类似的对象通常被描述得很接近,而相差较大的对象会有很大的分离。因此探索性多变量分析可用于揭示大型数据集中的模式,但是它们不能直接解释为什么存在这些模式,这一点在本文第三部分有所体现。

聚类分析和关联系数

聚类分析包含几种多变量技术,这些技术基于对象的相异性将其分组为不同类别。其目的在于最小化组内变异,同时最大化组间变异,从而揭示对象的明确定义类别,以此减少数据集的维度,使其成为几个排列的分组。因此,在样本(对象)之间预期有明显的不连续而不是连续的差异(即梯度)时,通常建议使用此方法,因为聚类分析主要旨在表示数据集中的分区。

因为以DNA或氨基酸序列差异为基础的距离矩阵,常用于描述微生物多样性,所以聚类分析在微生物生态学中已经变得非常流行(表1;图1)。这并不奇怪,因为基于表型或基因型相似性推断其生物分类位置的生物分组,通常且一直以来都是基于聚类分析(或至少基于树状表示),因此对于生物学和进化至关重要。由聚类分析解决的典型微生物生

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值