定义
β 多样性是不同生态系统之间多样性的比较,是物种组成沿环境梯度或者群落间的变化率,用来表示物种种类对环境异质性的反应。一般来说,包括物种改变(多少)和物种产生(有无)两部分。
意义
衡量不同因素下的样本多样性变化程度,从而辅助找出影响微生物群落变化的因素。
特征分析法
直角坐标、特征值
特征分析最大好处就是用最少(最重要)的坐标轴(特征值)展示(还原)最多的变量位置(数据距离)
PCA与CA是特征分析,NMDS不是特征分析
PCA
- Principle Component Analysis
- 主成分分析
- 其中一种最古老的的排序分析方法,慢慢被淘汰
- 利用直角坐标,同时把物种和样本排序信息展示在同一个分析当中(biplot)
- 表征分析,把变量作用最大化
PCA 的重要假设(限制)
- 根据欧式距离计算
导致默认某些OTU的数量变化比OTU的种类变化更重要,实际上生态数据中存在很多低丰度的OTU,因此造成较大误差,实际上可以采用PCoA,CA来进行分析。 - 数据可以通过线性直角坐标展示
物种数量与环境因素存在线性关系,但实际数据分析可能产生Horeshose effect(马蹄效应,很多微生物数量的变化在环境变量中都呈单峰模型,而PCA是线性模型,所以会出现马蹄效应)
CA 分析
- Correspondence Analysis
- 对应分析
- 与PCA不同的是CA分析更多考虑总体物种影响因素,是非线性模型(单峰模型)
- PCA中,物种在箭头持续增加,而CA,物种采取加权平均值策略
CA 延伸
- CA分析在物种多样性高的时候,容易出现arch effect ,因此需要其他模型:
- DCA (Detrending correspondence analysis)CA分析变种,消除CA的arch effect
- CCA 单峰模型,增加环境因素的CA分析
距离分析法
- 没有特征物种,利用样本间距离进行分析
- PCoA,NMDS
微生物样本的距离
- 欧式距离
- Jaccard
- Bray-Curtis
- Unifrac
PCoA
- Principal Corrdinates Analysis
- 主坐标分析
- 利用距离数据,对样本的距离在低维度进行欧几里得距离展示,同时以最大限度地保留原始样本的距离(如果利用原始数据欧式距离,本质上是PCA)
- 相比于PCA,因为以样本距离为整体考虑,更符合生态学数据特征
- CA分析是原始数据为基础,PCoA是距离数据为基础,受距离算法影响大
PCoA 影响因素
- 不同距离的选择
- 数据输入是相似性距离,输出线性距离关系。展示最能够保持样本间原来相似性距离的坐标
- 线性分析可能会让实际数据结果产生Arch effect–NMDS可消除
NMDS
- Non-metric multidimensional scaling
- 非度量多维度分析法
- 当样本距离关系不是特别准确的时候,并不能发掘最佳坐标,样本映射位置难以确定,先假设最佳维度
- 抽样误差,Beta多样性特别高
- 强调排名,不是实际距离数值进行分析
- 结果并不唯一
- 运行成本高
NMDS原理-作图
- 预先构建维度
- 根据设定维度,随机放置距离数据
- 根据设定距离数据与原始数据比较,判断模型适合程度(Stress判断)
- 根据第一次的数据分析,重新小范围打乱数据,在进行多次stress计算,知道稳定
- 最终找出最适合是模型(最小stress)
NMDS 图形解读
- 第一位坐标轴不一定比第二维坐标轴重要
- 放置距离与原始距离并不一致(因为根据排名输入)
- 模型判断,一般stress低于0.1为合理,低于0.05,相似性非常好
NMDS缺点
- 相比于表征分析,NMDS更在于排名,因此对数据的解读能力往往不足,往往弱化了主效因素
- 一般上,stress数值会随数据量的增大而减少,因此在大样本分析时候,stress数据往往异常的小