随机森林也称为决策树森林。它是流行的基于决策树的集成模型之一。这些模型的准确性高于其他决策树。该算法可用于分类和回归应用。
在一个随机森林中, 我们创建了大量决策树, 并且在每个决策树中, 每个观察结果都会得到反馈。最终输出是每个观察结果最常见的结果。通过向所有树木提供新的观察结果, 我们为每种分类模型投了多数票。
对于在构造树时未使用的情况进行了错误估计。这称为以百分比表示的袋外(OOB)错误估计。
决策树易于过度拟合, 这是它的主要缺点。原因是, 如果加深了树木, 它们就能够适应数据中所有类型的变化, 包括噪声。可以通过部分修剪来解决此问题, 并且结果通常不尽人意。
R允许我们通过提供randomForest包来创建随机森林。 randomForest软件包提供了randomForest()函数, 可帮助我们创建和分析随机森林。 R中的随机森林有以下语法:
randomForest(formula, data)
例:
让我们开始了解如何使用randomForest包及其功能。为此, 我们举一个使用心脏疾病数据集的示例。让我们逐步开始编码部分。
1)第一步, 我们必须加载三个必需的库, 即ggplot2, cowplot和randomForest。
#Loading ggplot2, cowplot, and randomForest packages
library(ggplot2)
library(cowplot)
library(randomForest)
2)现在, 我们将使用http://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data中存在的心脏病数据集。然后, 我们从该数据集中读取CSV格式的数据, 并将其存储在变量中。
#Fetching heart-disease datase