为什么要集成学习?
因为构成集成模型的基本模型有差异性,而正是这样的差异性,能够:
1.降低过拟合风险
2.增加鲁棒性
3.减小估计的偏差,提高模型性能
简单的集成学习——Bagging
训练过程:有放回地抽样(bootstrap)获得多个数据集,每个数据集用于训练一个基本模型。多个模型训练相互独立,可以并行。
模型集成:最终用投票或者加权的方法进行回归或者分类。
随机森林就是一种Bagging学习,且随机森林在每个决策树的训练中引入了随机性。
迭代式集成学习——Boosting
训练过程:Boosting的模型训练是迭代式进行的,每个样本都有一个权重,前一个模型分类错误的样本在下一轮的模型训练中就会有较大的权重。模型迭代就是希望可以不断修正前一个模型的不足。
模型集成:加权平均的方式集成每个模型的输出,权重由每个模型的性能进行分配。
AdaBoost是一种Boosting算法,每一轮迭代都给上一轮被错误分类的样本更高的权重,弱分类器最后根据其准确度进行加权组合。