提升方法
主要可以分为两大类:Boosting & Bagging
Boosting
主要代表算法是Adaboost。
Boosting策略主要关注降低偏差。
Boosting的基分类器之间彼此串行,每一轮都更新样本的权重,更加关注分类错误的样本,最终采用加法模型,加大分类误差率小的基分类器的权重,降低分类错误率大的基分类器的权重,组合所有的基分类器。
Bagging
主要代表算法是随机森林(Random Forest)。
Bagging策略主要关注降低方差。
Bagging基分类器彼此之间并行,采用bootstrap sampling的方式,生成多个训练集训练基学习器,最终采用平均法或者投票法得出结论。
随机森林是Bagging的一个扩展变体,其以决策树为基学习器,进一步在决策树训练过程中引入了随机属性选择(先随机选择属性子集,而后选择最优属性进行划分)。