本文主要介绍了随机森林算法的原理、优缺点以及R语言的实现。
一、概述
1.原理
随机森林(Random Forest)的实质是一种基于决策树的集成学习(Ensemble Learning),亦称多分类器系统(Multi-classifier System)。由于集成学习的核心是如何产生并结合“好而不同”的个体学习器,而随机森林在以决策树为基学习器的基础上,引入了两个随机性:(1)采样随机性:运用自助采样法在给定包含m个样本的数据集中采样出T个含m个训练样本的采样集(由于采样为可放回抽样,因此m个采样集中的样本与原始样本的m个样本不等同,实验表明,初始训练集中约有63.2%的样本出现在采样集中);(2)属性选择随机性:在随机森林中,对基决策树的每个结点,先从该结点的属性集中随机选择一个包含k(一般情况下,推荐值 k=log2d