【机器学习】集成学习笔记

最新推荐文章于 2022-12-30 11:18:02 发布

orsonV

最新推荐文章于 2022-12-30 11:18:02 发布

阅读量482

点赞数

分类专栏：基于Python的机器学习知识归纳

本文链接：https://blog.csdn.net/orsonV/article/details/81505528

版权

1. 基础知识

概念：集成学习（ensemble learning）先产生出一组“个体学习器”，再用某种策略将它们结合起来。这些个体学习器可以类型相同，也可以不同。
集成学习通过将多个学习器进行集合，常可获得比单一学习器显著优越的泛化性能，但有一个小条件——这些个体学习器至少不差于弱学习器（泛化性能略优于50%的学习器）。这次融合我的XGBOOST和Andy的GBDT结果集得到了非常好的提升效果的，我认为就很好地佐证了集成学习这个理念的正确性。
集成个体最好是“好而不同”的（一个二分类任务的例子）。这个“不同”指基学习器之间要有差异，同时误差尽可能相互独立（虽然这是不可能的）。基学习器的“准确性”+“多样性”之间的平衡就是集成学习研究的核心。虽然“独立”在现实中无法做到，但可以使基学习器之间有具有较大的差异。比如给定一个训练集，我们可以有交叠地采集子集来训练出不同的基学习器，这种方法提示我在O2O优惠券赛中，可以抽样产生多个训练集来训练出多个模型，最后对预测结果进行融合。
分类：序列化方法（代表是Boosting）和并行化方法

2.Boosting

概述：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后根据调整后的样本分布来训练下一个基学习器；如此重复进行，直到基学习器数目达到事先指定的数目T，最终将这T个基学习器进行加权结合。
代表算法：Adaboost（加性模型迭代指数损失函数࿰

关注