bagging集成学习中最为经典的算法之一。
Bagging算法的基本思想是:自助采样和投票表决
Bagging就是,有放回采样m个样本,这件事进行T(T一般是奇数)次,这样就得到了T个不相同的训练集,分别用于取训练一个基学习器。因为样本集的构成不同,这T个基学习器就是不同的。而测试集则用这T次自助采样都没有采到过的那部分样本构成。
投票表决:训练出的T个基学习器用于样本预测时,按少数服从多数给出答案。具体有绝对多数表决(至少有多于T/2个基学习器给出了同一答案)。
另外bagging算法主要是降低每一个分类器的误差,就间接降低了集成学习模型的方差。
下面是bagging算法的伪代码流程图:
流程图如下所示: