之前写过boosting的博客,这篇是关于bagging的。
- 训练
bagging采用自助采样(bootstrap sampling)
N个样本,有放回随机抽样N次,一次实验大约可以采集到63%样本。如果进行T次实验,得到T笔数据,分别训练一个模型。
包外估计(out of bag estimate):对于剩下的37%数据,可以用于validation。
- 预测
结果组合采用的策略:分类问题可以voting,多数表决;回归问题采用平均加权。或者再来一层stacking
- 随机森林
随机森林的基学习器是决策树,并且在样本随机抽样的基础上,RF引入特征属性随机抽样,对于含有d个属性的某个节点,一般的决策树算法在树节点分裂的时候,是从d个属性里选择一个最优的属性;而RF则首先抽样k个属性,然后在这k个属性选取最优的属性。