在前一篇中,我们介绍了集成学习中的Adaboost算法。本文中,我们将介绍集成学习中另一个很有名的算法----bagging算法。
算法步骤
bagging算法在原理上比Adaboost算法要更加简单。
Step 1: 通过自助法(有放回抽样)生成k个数据集,即在所有的样本中通过有放回的随机抽样,生成k个数据集。
Step 2: 对这k组数据集分别进行训练,从而得到k个分类器
Step 3: 将这k个分类器组合到一起,各个分类器的权重相同,从而得到最终的分类器。
算法详解
Step 1 值得关注的有
- 自助法详解
- 假设在原始数据集中共有n个样本,则我们选取的每一个数据集都要有n个数据。
- 通过有放回抽样的方式抽取数据,会导致数据集中有重复的数据,这是正常的。
- 在每一次抽取中,大概会有35%(计算过程详见上述文档: