Boosting总结

  Boosting是集成学习中的一大类方法,它是一种“串行”的机器学习方法,即从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前学习错的训练样本在后续中受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,每个基学习器之间是输入-输出的关系,如此重复进行,直至基学习器的数目达到事先指定的值T,最终将这T个学习器进行加权结合。
        对于Boosting算法来说,每个基分类器可以是“同质”的,即此集成中只包含同种类型的个体学习器,例如决策树集成,神经网络集成等;也可以是“异质”的,即集成中包含不同种类的基学习器,例如集成中同时包含决策树和神经网络。
        从Boosting算法的流程可知,Boosting算法的两个关键之处在于:(1). 每一轮学习过程结束后,调整训练样本的权值;(2).更新每一个基学习器的h的权重。
        Boosting类算法包含的算法有很多,最有名的就是AdaBoosting算法,除此之外还有Gradient Boosting,L2Boosting 包括陈天奇(Tianqi Chen)大神发明的XGBoost都在此类中,对于同类型的算法,我们更应该关注其损失函数和损失函数优化方法。

所以对于Gradient Boosting,就是在训练基学习器的时候,选择梯度下降的方向来最小化损失函数的,而对于AdaBoost,则是优化其指数损失函数,因为指数损失函数在求偏导的时候形式较为简单,这里就不展开讲了。
        至于目前大热的XGBoost,与GBDT最大的不同,就是对损失函数进行了泰勒变换:

展开以后的形式里,当前待学习的Tree是变量,需要进行优化求解。
在实际操作的过程中,sklearn包中的ensemble方法中包含了AdaBoost、Gradient Boost以及GBDT,而XGBoost则有专门的Python包来实现,具体的API请看官方文档。

参考文献:
《机器学习 周志华著》
《统计学习方法 李航著》
sklearn 及 XGBoost官方文档
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值