一、总述
集成学习通过构建并结合各个学习器来完成学习任务,以获得比单个学习器更优的性能(核心是每个学习器“好而不同”):先产生一组个体学习器,再用某种策略将它们组合起来。同质(homogeneous)集成:决策树集成,神经网络集成…个体为基学习器,算法为基学习算法。异质(heterogenous)集成:包含不同类型的学习器,个体为组建学习器。
Boosting:个体学习器之间存在强依赖关系、必须串行生成的序列化方法。
Bagging和随机森林:个体学习器之间不存在强依赖关系、可同时生成的并行化方法。
二、Boosting
初始训练出一个基学习器,根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。基于调整后的样本分布来训练下一个基学习器,如此反复,直到基学习器书目达到预先指定的值。最终,将所有的基学习器进行加权结合。
对特定的数据分布进行学习,降低偏差。
标准的Adaboost只适用于二分类。
Adaboost,基学习器的线性组合
来最小化指数损失函数
三、Bagging
每次从样本中选取m个样本(剩下的可作为验证集),