交叉验证的得分怎么分析_RDAPLS:多数据集关联分析

通过交叉验证和PLS回归,分析多个数据集之间的关联,如大豆根瘤微生物、土壤理化性质和大豆种子质量,以及小鼠肠道微生物、食物参数与身体状况。在高多重共线性情况下,PLS回归能有效降维和模型拟合,通过蒙特卡罗置换检验确定显著性,最后选择最佳主成分数量以优化模型预测准确性。
摘要由CSDN通过智能技术生成
271ab5f04fcdb8944e876ecc81ed5bc1.png 在现代微生物组学分析中,高通量的测试方法使得研究者可以一次性获取大量的数据信息,这时候所获得的数据里可能存在大量“冗余”;此外,在实际操作中,研究人员为避免遗漏重要的系统特征,往往倾向于较周到的选取测试指标,这些变量之间也很可能存在多重共线性。因此,在大数据量的多个数据集之间进行分析时,常常难以有效的进行数据挖掘。基本原理

为了消除冗余数据,选取系统的主要特征,可以使用排序方法进行降维并挑选主要变化因子(应用到生态中就是挑选主要物种或环境因子)。然而约束排序只能使用一个解释变量数据集对一个响应变量数据集进行分析,当有多个数据集时,就需要多种方法结合进行分析。例如大豆根瘤微生物群落、土壤理化性质、大豆种子质量(含油量、粒重、数目等)这三个数据集,我们倾向于用土壤理化因子去解释另外两者,而对于小鼠肠道微生物、食物参数(蛋白质、纤维、油脂含量)、身体状况(体重、血糖等)这三个数据集,我们倾向于用食物参数和肠道微生物去解释身体状况。

当研究认定多个数据集有依次的解释关系时,可以使用连续的解释变量-响应变量模式进行分析,这里介绍一种约束排序-PLS回归模型分析方法。在OLS回归分析中,多重共线性会造成模型的回归系数置信区间过分夸大,造成模型的解释能力大大降低,这时可以采用偏最小二乘(Partialleast squares,PLS)回归的方法。偏最小方差回归是在对因变量y进行拟合的同时使用y对自变量进行X进行约束降维,使用X的主成分来对y进行拟合,具体方法如下所示。

假设有以下自变量X和因变量y:

7208dd4e0b52a7fecc73ccb79ca0a7d3.png

第一步,计算y与X的协方差向量w1(若因变量是多变量矩阵Y则为协方差矩阵W,这里为简化计算以一元因变量y代替):

d373962d9dc98e1e5ef9e2783f9e7032.png

根据协方差向量提取X的主成分t1

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值