当我们为给定的数据集创建决策树时,我们只使用一个训练数据集来构建模型。
然而,使用单个决策树的缺点是它往往会受到高方差的影响。也就是说,如果我们将数据集分成两半并将决策树应用于两半,结果可能会大不相同。
我们可以用来减少单个决策树方差的一种方法称为装袋,有时称为引导聚合。
Bagging 的工作原理如下:
1.从原始数据集中提取b个自举样本。
2. 为每个自举样本构建决策树。
3. 平均每棵树的预测以得出最终模型。
通过构建数百甚至数千个单独的决策树并从所有树中获取平均预测,我们通常会得到一个拟合的袋装模型,与单个决策树相比,它产生的测试错误率要低得多。
本教程提供了如何在 R 中创建袋装模型的分步示例。
第 1 步:加载必要的包
首先,我们将为此示例加载必要的包:
library(dplyr) #for data wrangling
library(e1071) #for calculating variable importance
library(caret) #for general model fitting
library(rpart) #for fitting decision trees
library(ipred) #for fitting bagged decision trees