Boosting总结

最新推荐文章于 2022-09-12 21:44:24 发布

sokee544

最新推荐文章于 2022-09-12 21:44:24 发布

阅读量455

点赞数

分类专栏：数据挖掘文章标签：数据挖掘机器学习集成学习

本文链接：https://blog.csdn.net/sokee544/article/details/78645387

版权

数据挖掘专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Boosting是集成学习中的一大类方法，它是一种“串行”的机器学习方法，即从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前学习错的训练样本在后续中受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，每个基学习器之间是输入-输出的关系，如此重复进行，直至基学习器的数目达到事先指定的值T，最终将这T个学习器进行加权结合。

对于Boosting算法来说，每个基分类器可以是“同质”的，即此集成中只包含同种类型的个体学习器，例如决策树集成，神经网络集成等；也可以是“异质”的，即集成中包含不同种类的基学习器，例如集成中同时包含决策树和神经网络。

从Boosting算法的流程可知，Boosting算法的两个关键之处在于：(1). 每一轮学习过程结束后，调整训练样本的权值；(2).更新每一个基学习器的h的权重。

Boosting类算法包含的算法有很多，最有名的就是AdaBoosting算法，除此之外还有Gradient Boosting，L2Boosting 包括陈天奇(Tianqi Chen)大神发明的XGBoost都在此类中，对于同类型的算法，我们更应该关注其损失函数和损失函数优化方法。

所以对于Gradient Boosting，就是在训练基学习器的时候，选择梯度下降的方向来最小化损失函数的，而对于AdaBoost，则是优化其指数损失函数，因为指数损失函数在求偏导的时候形式较为简单，这里就不展开讲了。

至于目前大热的XGBoost，与GBDT最大的不同，就是对损失函数进行了泰勒变换：

展开以后的形式里，当前待学习的Tree是变量，需要进行优化求解。

在实际操作的过程中，sklearn包中的ensemble方法中包含了AdaBoost、Gradient Boost以及GBDT，而XGBoost则有专门的Python包来实现，具体的API请看官方文档。

参考文献：

《机器学习周志华著》

《统计学习方法李航著》

sklearn 及 XGBoost官方文档

sokee544

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Boosting总结

Boosting是集成学习中的一大类方法，它是一种“串行”的机器学习方法，即从初始训练集中训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前学习错的训练样本在后续中受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，每个基学习器之间是输入-输出的关系，如此重复进行，直至基学习器的数目达到事先指定的值T，最终将这T个学习器进行加权结合。对于Boost
复制链接

扫一扫