主成分回归(PCR)的方法 本质上是使用第一个方法的普通最小二乘(OLS)拟合来自预测变量的主成分(PC)。这带来许多优点:
预测变量的数量实际上没有限制。
相关的预测变量不会破坏回归拟合。
但是,在许多情况下,执行类似于PCA的分解要明智得多。
今天,我们将 在Arcene数据集上执行PLS-DA, 其中包含100个观察值和10,000个解释变量。
让我们开始使用R
癌症/无癌标签(编码为-1 /
1)存储在不同的文件中,因此我们可以将其直接附加到完整的数据集,然后使用公式语法来训练模型。
# Load caret, install if necessary
library(caret)
arcene
colClasses = c(rep("numeric", 10000), "NULL"))
# Add the labels as an additional column
arcene$class
,现在的主要问题是:
我们如何根据其血清的MS谱准确预测患者是否生病?
哪种蛋白质/ MS峰最能区分患者和健康患者?
关于预处理,我们将使用preProc参数以精确的顺序删除零方差预测变量,并对所有剩余的变量进行标准化。考虑样本的大小(n=
100),我将选择10倍的重复5倍交叉验证(CV)–大量重复补偿了因减少的折叠次数而产生的高方差