集成学习模型——boosting/bagging

本文深入探讨了集成学习中的三种重要方法:Bagging通过降低模型方差提高稳定性,Boosting通过减少模型偏差提升预测精度。文章详细介绍了Adaboost、GBDT(梯度提升决策树)以及随机森林,包括它们的工作原理、优缺点及应用,如随机森林的推广——extra trees、Totally Random Trees Embedding和Isolation Forest。
摘要由CSDN通过智能技术生成

集成学习

Bagging

降低模型的方差

Boosting

降低模型的偏差
在这里插入图片描述

步骤:

  • 1)、初始化训练数据权重 1/N
  • 2)、计算弱分类器的误差,以及弱分类器的权重(以分类为题为例)
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J5HI0IpH-1569566833049)(en-resource://database/535:1)]@w=600[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K7ESXAtx-1569566833050)(en-resource://database/537:1)]@w=200
  • 3)、更新数据权重:增加被误分类数据的权重,减小正确分类数据的权重
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dy3lQPGu-1569566833051)(en-resource://database/539:1)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KsFafXqW-1569566833052)(en-resource://database/541:1)]
  • 4)、最终的分类结果:
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYrM0JTh-1569566833053)(en-resource://database/543:1)]
    Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(boosting tree)系列算法。提升树系列算法里面应用最广泛的是梯度提升树(Gradient Boosting Tree)。

随机森林(Random Forest,RF)

Bagging,有放回的随机采样,根据大数定律,样本中会有1/e~0.368的数据会不被采到,这些数据被称为袋外数据(out of bag, OOB),可以用这些数据来检测模型的泛化能力。 弱分类器常用的模型:决策树和神经网络

Bagging模型的改进

1、CART决策树作为弱学习器
2、CART最优特征的选择进行了改进,不是基于所有的n个样本特征中选择最优的特征划分左右子树,而是随机的选择部分样本特征

随机森林的推广

1、extra trees

extra trees是RF的一个变种, 原理几乎和RF一模一样,仅有区别有:   
1) 对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而ext

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值