今天带来的内容是冗余分析(Redundancy Analysis),RDA。它结合了回归分析与主成分分析(PCA)的特点,用于探索两个数据矩阵之间的线性关系。常用在生态学领域,比如分析物种的多样性(通过多样性指标衡量)与环境因子的关系。废话少说,直接讲案例。
01 RDA的数据形式
做RDA要准备两份数据,一份物种的多样性数据(数据A,图1A)。一份是环境因子数据(数据B,图1B),通过相同的站位把它们们链接起来,注意站位一定要相同。以数据A为响应变量,数据B为解释变量,进行分析。
02 RDA分析结果
完整的RDA分析通常包括各解释变量的p值,用得最多的就是蒙特卡洛置换检验,对RDA中的解释变量进行检验,看是否显著,如果显著即可以进行进一步讨论。
回到RDA的结果,结果通常包括一个图(图2A)和一些数据(图2B)。图其实就是对数据中除蒙特卡洛检验结果外的可视化。接下来说一下结果怎么看:
- 首先,我们查看一下各解释变量的p值,大于0.05的变量可以剔除;
- 各环境变量与RDA1和RDA2的轴的相关性其实就是指该变量的箭头在RDA1或RDA2轴上的投影,体现的是该变量在RDA1和RDA2轴上的解释力;
- 降维分析一般只看两个轴,RDA1和RDA2的贡献率很大程度上就代表了这个分析结果是否局有说服力,在这个例子中,RDA1和RDA2解释了86%左右的变异,表现不错。
接下来看看图。假设图2A中所有解释变量的p值都小于0.05,所有变量都纳入讨论范围:
- 看箭头,箭头越长,变量的总解释力越强,这里应该与RDA1或RDA2单独的解释力区分;
- 看变量之间的夹角。两个箭头之间的夹角的余弦值(cosine)反映了它们的相关性。夹角为0度为完全正相关(cos值为1),夹角为90度为无相关(cos值为0),夹角为0度为完全负相关(cos值为-1)
03 RDA分析的注意事项
RDA融入了降维方法变得高级了一些,但是对于结果的要求也变高了。好的RDA结果应该注重两个方面:第一,RDA1和RDA2两条轴的解释百分比总和越高越好,如果过低不可使用;其次就是蒙特洛卡检验结果如果所有解释变量的p值都大于0.05则不可使用。
希望我的经验能够帮到你!
TomatoSCI,欢迎大家来访!