集成学习（ensemble learning）

最新推荐文章于 2022-07-11 11:21:58 发布

滺湙

最新推荐文章于 2022-07-11 11:21:58 发布

阅读量442

点赞数

分类专栏：找工作的基础知识文章标签：机器学习

本文链接：https://blog.csdn.net/qingmao123/article/details/100856538

版权

本文介绍了集成学习的基本概念，包括同质和异质集成，并深入探讨了Boosting、Bagging、随机森林和GBDT。重点讨论了Boosting中的Adaboost算法，以及Bagging的代表随机森林和GBDT的优化策略。XGBoost通过引入正则项、列抽样和并行计算，有效提升了模型性能和效率。

摘要由CSDN通过智能技术生成

一、总述
集成学习通过构建并结合各个学习器来完成学习任务，以获得比单个学习器更优的性能（核心是每个学习器“好而不同”）：先产生一组个体学习器，再用某种策略将它们组合起来。同质（homogeneous）集成：决策树集成，神经网络集成…个体为基学习器，算法为基学习算法。异质（heterogenous）集成：包含不同类型的学习器，个体为组建学习器。
Boosting：个体学习器之间存在强依赖关系、必须串行生成的序列化方法。
Bagging和随机森林：个体学习器之间不存在强依赖关系、可同时生成的并行化方法。

二、Boosting
初始训练出一个基学习器，根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注。基于调整后的样本分布来训练下一个基学习器，如此反复，直到基学习器书目达到预先指定的值。最终，将所有的基学习器进行加权结合。
对特定的数据分布进行学习，降低偏差。
标准的Adaboost只适用于二分类。
Adaboost，基学习器的线性组合
在这里插入图片描述
来最小化指数损失函数