bagging
采用数据随机重抽样的分类器构建方法,从训练集进行子抽样组成每个基学习器的子训练集,结合所有基学习器的预测结果进行最终的预测。如下图所示:
关于“随机采样”:
随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法,一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样,,则由于随机性,T个采样集各不相同。其中有1/e(计算很简单)的数据是从未采样到的,可以用来作为测试集。
GBDT的子采样是无放回采样,bagging是有放回采样。
为什么说bagging是减少variance,而boosting是减少bias?
链接:https://www.zhihu.com/question/26760839/answer/40337791
随机森林的改进:
首先,RF使用了CART决策树作为弱学习器,这让我们想到了梯度提升树GBDT。第二,在使用决策树的基础上,RF对决策树的建立做了改进,对于普通的决策树&