在现代微生物组学分析中,高通量的测试方法使得研究者可以一次性获取大量的数据信息,这时候所获得的数据里可能存在大量“冗余”;此外,在实际操作中,研究人员为避免遗漏重要的系统特征,往往倾向于较周到的选取测试指标,这些变量之间也很可能存在多重共线性。因此,在大数据量的多个数据集之间进行分析时,常常难以有效的进行数据挖掘。基本原理
为了消除冗余数据,选取系统的主要特征,可以使用排序方法进行降维并挑选主要变化因子(应用到生态中就是挑选主要物种或环境因子)。然而约束排序只能使用一个解释变量数据集对一个响应变量数据集进行分析,当有多个数据集时,就需要多种方法结合进行分析。例如大豆根瘤微生物群落、土壤理化性质、大豆种子质量(含油量、粒重、数目等)这三个数据集,我们倾向于用土壤理化因子去解释另外两者,而对于小鼠肠道微生物、食物参数(蛋白质、纤维、油脂含量)、身体状况(体重、血糖等)这三个数据集,我们倾向于用食物参数和肠道微生物去解释身体状况。
当研究认定多个数据集有依次的解释关系时,可以使用连续的解释变量-响应变量模式进行分析,这里介绍一种约束排序-PLS回归模型分析方法。在OLS回归分析中,多重共线性会造成模型的回归系数置信区间过分夸大,造成模型的解释能力大大降低,这时可以采用偏最小二乘(Partialleast squares,PLS)回归的方法。偏最小方差回归是在对因变量y进行拟合的同时使用y对自变量进行X进行约束降维,使用X的主成分来对y进行拟合,具体方法如下所示。
假设有以下自变量X和因变量y:
第一步,计算y与X的协方差向量w1(若因变量是多变量矩阵Y则为协方差矩阵W,这里为简化计算以一元因变量y代替):
根据协方差向量提取X的主成分t1: