Bagging
Bagging是并行式集成学习方法的代表之一,全称是Bootstrap aggregating,这个名字来源于bootstrap samping和 aggregation的思想。
自助采样法(bootstrap sampling)
上图来自林轩田教授的PPT,对于包含m个样本的训练集,有放回地取出m个样本。采样后初始训练集中约有63.2%的样本会出现在采样集中,剩下36.8%的样本可以作为验证集进行包外估计(out-of-bag estimate)。因为在训练中分类器从来没有看到过 oob 样本,所以它可以在这些样本上进行评估,而不需要单独的验证集或交叉验证。
基本流程
按照自助采样法,采样出T个含m个样本的采样集,然后基于每个采样集训练出一个基学习器,再将基学习器进行结合。
结合策略(aggregation)
对于分类任务,常采用投票法,使用类标签进行投票称为硬投票,使用类概率进行投票称为软投票;
对于回归任务,常采用普通平均法(基学习器性能相近时)和加权平均法(基学习器性能差异较大时)。
随机森林
随机森林(Random Forest)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging的基础上,进一步在决策树的训练过程中引入了随机属性选择。
- 对样本进行自助采样
- 对特征进行随机选择
对特征进行随机选择是指,在特征集合d中随机选取了k个特征进行训练,推荐值 k = log d k=\log{d} k=