一、概念
1.β多样性
β多样性又称生境间的多样性(between-habitat diversity),是指沿环境梯度不同生境群落之间物种组成的相异性或物种沿环境梯度的更替速率。不同群落或某环境梯度上不同点之间的共有种越少,β指数多样性越大。
用于研究群落之间的种多度关系,例如:物种更替或物种组成的差异。
意义:
①指示生境被物种隔离的程度;
②Beta多样性的测定值可以用来比较不同地段的生境多样性;
③Beta 多样性与Alpha 多样性一起构成了总体多样性或一定地段的生物异质性。
二、Beta多样性分析
在读文章中经常可以看到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们在本质上是排序(ordination)分析。
1.排序
排序的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样品,使相似的样品或物种距离相近,相异的样品或物种距离较远。使得样方之间的距离最大程度地反映出平面散点图内样品间的关系信息,揭示微生物-环境间的生态关系,降低维数,减少坐标轴的数目,使排序轴能够反映一定的生态梯度。
常用的排序方法:非限制性排序、层次聚类、限制性排序等,均以群落相似或距离为基础计算。
2.群落相似性
生态相似性(Ecological resemblance)以计算不同样本群落组成相似程度或距离(相异程度)为基础,是处理多元生态数据的基本方法之一。在群落数据的分析中,常用其反映Beta多样性。
如在物种数据的分析中,对于两个群落,共享相同的物种,且所有物种的丰度一致,那么这两个群落就具有最高的相似程度(或最低距离0)。
若两个对象在各属性上越近似,那么它们的相似性就越高。对于群落数据,这些属性一般就是物种组成,或者环境属性等。通常使用物种组成数据,依据相似性指数(similarity indices)判断群落相似性,范围由0(两个群落不共享任何物种)到1(两个群落的物种类型和丰度完全一致)。所有相似性指数均可以转换为距离指数,转化公式为“距离指数 = 1 – 相似性指数”的关系。
常用的相似性指数:Jaccard相似性指数(Jaccard similarity index)将两个样方共享的物种数量(a)除以两个样方中出现的所有物种的总和(a + b + c,其中b和c是仅在第一个和第二个样方中出现的物种数量)。计算公式如下:
y1j和y2j分别是对象1和2中元素j的数值。若是群落物种数据,y1j和y2j就分别是样方1和2中物种j的丰度。p是物种数(样方-物种矩阵中的物种数)
3.距离指数
距离指数(distance indices)或称距离测度(distance measures),与相似性指数相反,距离数值越大表明群落间差异越大。存在多种距离类型,例如欧几里得(Euclidean)距离、Bray-Curtis距离、UniFrac距离等。对于物种组成数据,距离指数的最小值为0(两个群落的物种类型和丰度完全一致),最大取值取决于距离类型和数据本身。
(1)可以转化为相似性指数的距离指数,例如定量数据的相异百分率(也称为Bray-Curtis距离)等。二者相互转换的公式通常表示为D=1-S或S=1-D,其中S是相似性指数,D为距离指数。
(2)无法转化为相似性指数的距离指数,例如欧几里得距离、卡方距离。
****************************************计算方法****************************************
在生物学研究中,主要分为两大类,一种是物种距离(如常用Jaccard,Bray-Curtis);另一种是基于进化的距离(Unifrac),基于进化的距离包含权重(Weighted)和非权重(Unweight)两种。
Bray-curtis距离(Bray-curtis distance):
计算公式:
p表示物种数(样方-物种矩阵中的物种数),y1j和y2j表示两个样方中对应的物种多度
欧几里得距离(Euclidean distance):
欧几里得距离是多变量分析中经常使用的一种距离,如在线性排序方法PCoA、CCA。
计算公式:
UniFrac距离
1)非加权(Unweighted)
仅仅考虑微生物成员在群落中存在与否,而不考虑其丰度高低。
2)加权(Weighted)
兼顾群落成员之间的系统发育关系以及它们在各自群落中的丰度高低。
Note:两种距离算法侧重于不同的群落结构特征:究竟是由于群落成员的截然不同导致样品的差异,还是由于同一组成员在不同样品中丰度梯度的改变导致样品的差异。
由于主坐标分析是以“无监督”的方式降维分解样品距离矩阵,因此,合理运用非加权和加权两种UniFrac距离,可以较全面地揭示微生物群落数据背后隐含的生态学意义(即UniFrac PCoA分析)。
2.1只使用物种组成数据的排序称作非限制性排序(unconstrained ordination)
特点:即无限制条件,只找所有样品间的最大差异的投影平面
主要方法如下:
1. 主成分分析(principal components analysis,PCA)是一种常用的数据间差异分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征向量,常用于高维数据的降维。原理推荐阅读PCA的数学原理。
2. 对应分析(correspondence analysis, CA)
3. 去趋势对应分析(Detrended correspondence analysis, DCA)
4. 主坐标分析(principal coordinate analysis, PCoA)也称为度量多维标度,可呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。它与PCA类似,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。
5. 非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)
一种将多维空间的研究对象简化到低维空间进行定位,分析和归类,同时又保留对象间原始关系的数据分析方法。一般用组间样本的秩次(数据排名rank order)上的差异来定义距离。
Note:在非限制性排序中,分析方法众多,但原理相近。16S和宏基因组数据分析最常用的是PCA分析和PCoA。
PCA和PCoA分析的区别:PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。
2.2同时使用物种和相关环境因子组成数据的排序叫作限制性排序(constrained ordination)
特点:寻找某一条件下,可最大限制解释这一条件的投影平面。
条件:连续(温度、湿度、pH值、各种土壤理化性质等)或非连续的变量(如人为分组、基因型、地理位置、取样时间、实验批次等)。
常分析方法:
1. 冗余分析(redundancy analysis,RDA)
冗余分析(Redundancy analysis,RDA)是主成分分析(PCA)和多元回归分析的结合。常用于寻找环境变量和微生物群落之间的关系等。利用多元多重线性回归计算出解释变量和微生物群落之间的回归拟合值矩阵,再利用回归拟合值矩阵进行PCA排序。
2. 典范对应分析(canonical correspondence analysis, CCA)是对应分析和多元回归分析的结合。
多元多重线性回归计算出解释变量和微生物群落之间的回归拟合值矩阵,回归拟合值矩阵使用对应分析(Correspondence Analysis,CA)排序拟合,就是典范对应分析(CCA)。
RDA或CCA的区别:RDA是基于线性模型,CCA是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是如果CCA排序的效果不太好,就可以考虑是不是用RDA分析。RDA或CCA选择原则:先用species-sample资料做RDA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0, RDA的结果要好于CCA。
Note:此类方法可以计算某一条件下,各组间是否存在显著差异,并且可以计算出该条件下平面展示的差异占样品间总体差异的比例。