机器学习(4):集成算法(Bagging、Boosting、Stacking)

本文介绍了集成算法的三大流派:Bagging中的随机森林及其拓展extra trees,Boosting中的Adaboost算法,以及Stacking模型。随机森林通过随机采样构建并行的决策树,降低模型的方差。AdaBoost则通过迭代提升弱学习器,关注错误分类样本。Stacking利用多模型的预测结果作为更高层模型的输入,以提高非线性表述能力和泛化能力。
摘要由CSDN通过智能技术生成

目录

一、Bagging模型:随机森林

1.1 bagging的原理

1.2 随机森林算法 Random Forest

1.3 随机森林的推广:极限随机数 extra trees

二、Boosting模型:Adaboost、XGBoost

 2.1 Boosting模型

2.2 AdaBoost算法

三、Stacking模型


 

集成算法有3个流派:Bagging(代表随机森林)、Boosting(代表AdaBoost,Xgboost)、Stacking模型

Bagging:训练多个分类器取平均(并行)

Boosting:从弱学习器开始加强,通过加权来进行训练(串行)

Stacking:聚合多个分类或回归模型(分阶段)

 

一、Bagging模型:随机森林

1.1 bagging的原理

        Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。

        随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能继续被采集到。

      bagging对于弱学习器没有限制,这和Adaboost一样。但是最常用的一般也是决策树和神经网络。

      bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

  由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。

 

1.2 随机森林算法 Random Forest

用一句话总结就是:随机采样构建不同的树,结果取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值