微生物群落结构与环境因子关联分析_偏最小二乘法回归分析(PLS)

在环境微生物学领域中有个著名的信条——Everything is everywhere, but environment selects,这句话突出了环境因子对微生物群落结构的重要影响作用。在统计分析中,可以通过回归分析对微生物群落结构数据与其相对应的环境因子数据进行关联分析,进而找出引起微生物群落结构差异的主要环境影响因子,从而为微生物物种保护或提高生物处理中微生物利用效率提供理论依据。偏最小二乘法回归分析(PLS)就是最常用的关联分析工具之一。

(1)为什么要选用PLS?

在研究变量关系时,通常称被研究的变量为因变量或被解释变量(Y),而其他用来说明或解释因变量变化的变量被称为自变量或解释变量(X)。回归分析则是通过研究X与Y之间的数量关系进行预测性建模,从而得到X与Y之间的显著关系并衡量不同尺度变量之间的相互影响程度。环境因子与微生物群落结构的关联分析属于回归分析中的多元线性回归分析。此类分析往往采用最小二乘法估计回归系数,以使残差平方和最小。然而,当自变量之间存在多重相关性时,最小二乘法往往失效,例如环境中氨氮的含量将影响环境的pH值。此外,在生物信息数据分析中,变量的数据个数往往大于样本个数。这时,继续使用传统的多元回归分析手段将带来错误的结论。偏最小二乘法回归分析(PLS)又被称为第二代统计分析则应运而生,并被广泛应用。

(2)PLS的特点

①能够在自变量存在严重多重相关性的条件下进行回归建模;

②允许在样本点个数少于变量个数的条件下进行回归建模;

③在最终模型中将包含原有的所有自变量;

④偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);

⑤在偏最小二乘回归模型中,每一个自变量的回归系数更容易解释。

(3)PLS数学原理

知其然,当知其所以然。虽然我们可以通过数据分析软件(SIMCA, SIMCA-P等)进行偏最小二乘法回归分析建模,但是了解其背后的数学原理对我们理解模型结果和参数选择有重要的意义。PLS建模原理详见本节:

假设有q个因变量和p个自变量,

其中有n个样本点,由此构成了自变量与因变量的数据集,

偏最小二乘法回归分别在X和Y中提取出t1和u1(t1是 {x1, x2, … xp} 的线性组合,u1是 {y1, y2, … yq} 的线性组合)。在提取这两个成分时,为了回归分析的需要,有下列两个要求:

①和u1应尽可能大地携带它们各自数据集中的变异信息;

②和u1的相关程度能达到最大。

这两个要求说明,t1和u1应尽可能好地代表数据集X和Y,同时自变量的成分t1对因变量的成分u1又有较强的解释能力。

(4)PLS数学推导

①数据标准化

首先需要对数据进行标准化。记X经标准化处理后的数据矩阵为E0,Y经标准化处理化数据矩阵为F0;

②提取主成分

t1和u1为第一对主成分。根据主成分原理需要t1和u1的方差达到最大(方差最大表示的信息越多)。又由典型相关分析的思路知,t1和u1的相关度达到最大值。因此,在偏最小二乘法回归分析中,t1和u1的协方差达到最大,即:

且t1为X的线性组合,可记其权重系数为W1,即t1=E0W1。同理,u1为Y的线性组合,其权重系数为C1,u1=F0C1。W1和C1均为单位向量。那么这个问题转换为求解下列的方程的最优解:

关于这个条件极值问题,可以采取拉格朗日法求解。由于求解过程并不影响理解,这里只给出结论。通过拉格朗日求解得到:W1就是矩阵E0‘F0F0’E0的对应最大特征值的特征向量;C1就是矩阵F0‘E0E0’F0的对应最大特征值的特征向量,均单位化。至此,第一对主成分提取完成。此时:

③建立主成分与原自变量、因变量之间的回归

建立E0,F0对t1和u1的三个回归方程,如下:

其中,p1、q1和r1为回归系数向量,E1、F*1、F1为三个回归方程的残差矩阵。

④继续求主成分,直到满足要求

用残差矩阵E1和F1取代E0和F0,然后,继续求新的主成分t2,有:

同样,E1和F1分别对t2建立回归方程,得到:

同理,可推得第h个成分th,h的个数可以用交叉有效性原则进行,h小于X的秩。如此计算下去,如果X的秩为A,则会有:

由于t1, …, tA均可以表示为E01,…, E0p的线性组合,因此,上式可以还原成Yk=F0K关于XJ=E0J的回归方程形式:

——案例分析

本例将利用SIMCA软件对不同类型草原的环境因子和微生物群落结构进行PLS建模,拟得出影响草地微生物群落结构差异的主要环境因子。

(1)SIMCA软件

SIMCA软件由瑞典Umetrics公司于1987年研究开发,其内嵌PCA、PLS、OPLS和O2PLS等模型可对包含大数据的多重变量进行分析,有助于用户深度挖掘数据信息、预测数据未来走向和调整实验设计等。SIMCA软件界面清晰、操作简便,是目前十分受欢迎的多元变量统计分析软件。SIMCA是一款收费软件,正版软件需要向中国的产品代理商购买。本文侧重软件的使用,不涉及SIMCA软件包的提供与安装,软件获取与安装请读者们自行解决。

(2)数据准备

先在Excel中将数据整理为统一格式,其中,行为所要分析的因子,包括所有自变量和因变量;列为不同的样本及其分组;所有数据均为数值模式。SIMCA支持多种文件格式,其中.csv和.xlsx较为常用。本例中,环境因子将被定义为自变量,细菌门水平总丰度为前20的物种将被定义为因变量。关注“环微分析”公众号,后台回复“PLS”即可获取示例数据。

(3)数据导入

①运行程序。点击SIMCA运行程序,进入程序主界面;

②新建项目。点击工具栏中File>New>Regular Project;

③选择准备好的数据文件;

④在弹出的对话框中,单击“确定”;

⑤如图所示,数据被成功导入。

(4)定义变量

在PLS建模之前,使用者需要根据自己已有的知识确定哪些数据应该定义为自变量,哪些数据应该定义为因变量。在本例中,环境因子数据将被定义为自变量,而微生物物种丰度数据将被定义为因变量。具体操作如下:

①左键选中第一列后点击此工具栏中的Primary ID,定义样本的数据分组;

②右键选中环境因子数据列后点击次工具栏中的X variable,将其定义为自变量;

③右键选中微生物物种丰度数据列后点击次工具栏中的Y variable,将其定义为因变量;

④设置完毕后,点击次工具栏中的Finish,结束数据导入;

⑤接下来生成一个以.usp为后缀的文件(文件名可自行修改,默认为导入数据表的文件名);

⑥生成的示例数据1.usp为分析所需要的中间文件。

(5)PLS建模及其可视化

①在Home界面,点击New>Edit后弹出Workset界面,在文件中可进行自变量、因变量、剔除数据、定义组别等设置;

②在Workset底部选择自己合适的模型类型后,点击OK,退出该对话框;

③返回程序主界面,项目区显示模型类型为PLS,但未进行数据拟合,即未进行PLS数学推算;

④在Home界面,点击“Autofit”即可完成数据拟合;

⑤此时,将在项目区出现本例中PLS模型拟合效果。

提示:评价PLS模型拟合效果的使用R2X、R2Y和Q2Y这三个指标。这些指标的数值应介于0.5~1之间,越接近1则表示PLS的模型拟合效果越好。其中R2X和R2Y分别表示PLS模型所能够解释X和Y矩阵信息的百分比,Q2Y用以评价PLS模型的预测能力。

(6)PLS建模可视化

选择工具栏中的Analyze选项,点击“Biplot”(此图包括了数据的载荷分布和得分分布,展示了较全面的结果信息故选用此图),图示区将展示Biplot图。

(7)PLS结果解读

对于PLS模型结果的解读,需要借助【模型统计特征】部分的PLS plots 中的VIP(Variable Importance in Projection),进行关键环境因子的筛选。右键点击【模型统计特征】区域的“VIP”选项,生成VIP图。

将鼠标悬浮在每个变量的柱子上方,将显示变量的具体VIP数值。当变量的VIP数值大于1时,被认为是具有显著影响的环境因子。这由VIP的算法所决定。在本例中,TC/TN、Comsid、SMC为不同类型草地之间微生物群落结构差异形成的显著环境因子。

(8)图片美化

①总体修改。右键点击所生成的Biplot图的空白处,弹出的对话框中选择Properties,在弹出的对话框中对所有变量的字体、字符数、填充色等进行统一修改;

②精准修改。可右键点击Biplot图中变量的图标,选择Format Plot对坐标轴、字体,变量图标形状、颜色等属性进行一对一修改。

(9)分析结果导出

SIMCA中PLS可视化图片结果导出有多种方式,小编为大家一一列出。

①方法一

右键单击Biplot空白处,选择copy,粘贴至图形处理软件(AI)进行进一步编辑;

②方法二

右键单击Biplot空白处,选择save as,确定好图片的尺寸和分辨率之后,单击OK;

在弹出的对话框中,选择合适的图片格式,单击保存。

③方法三(推荐)

右键单击Biplot空白处,选择print,在弹出的对话框中修改名称那里为Microsoft print to PDF。后续可继续使用图形处理软件(AI,PS)进行下一步图形处理。

​ 这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

微生物群落结构与环境因子关联分析_偏最小二乘法回归分析(PLS)

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值