集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能。根据个体学习器的生成方式,可将集成学习方法分为两大类,以随机森林(Random Forest)为代表的Bagging算法,其个体学习器间不存在强依赖关系、可同时生成的并行化方法;以及以AdaBoost为代表的Boosting算法,其个体学习器存在强依赖关系、必须串行生成的序列化方法。
Boosting是一族可将弱歇学习器提升为强学习器的算法。算法的工作机制:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布训练下一个基学习器;如此重复进行,直至基学习器数目达到事先制定的值T,最终将这T个基学习器进行加权结合。AdaBoost是其中著名的代表。
AdaBoost算法有多种推导方式,容易理解的是“加性模型”(additive model),即基学习器的线性组合,具体推导可参考周志华老师的“机器学习”和李航的“统计学习方法”。
集成学习Boosting之AdaBoost
最新推荐文章于 2022-12-05 14:10:36 发布