集成学习

目录

集成学习两大类

Bagging(随机取数据,分类投票,回归均值)

随机森林(Bagging随机取数据+随机取属性+弱分类器为CART树)

Boosting(学习残差)

提升树

梯度提升树GBDT


集成学习即,利用多个学习器组合得到最后的结果

集成学习两大类

1.Boosting:Adaboost、提升树、梯度提升树 (GBDT)、XGboost

2.Bagging:随机森林

Bagging(随机取数据,分类投票,回归均值)

特点:随机数据,即有放回的随机抽取数据(有重复),不重复的作训练集

优点:解决掉单个随机树的过拟合问题

随机森林(Bagging随机取数据+随机取属性+弱分类器为CART树)

随机森林是在Bagging的基础上再加一个随机,即随机属性。

特征选择:

1.对特征随机增加噪音(即对每个样本在此特征上加减一个随机数),结果变化越大代表越重要

2.给特征重要程度排序。根据比率,删除重要值较小的特征。

3.重复计算一遍,继续筛选特征。

Boosting(学习残差)

用下一个学习器去拟合上一个学习器的残差。残差即实际值与预测值的差。

Boosting:下一个学习器以来上一个学习器的结果;Bagging:学习器与学习器之间独立,可以并发执行。

前向分布算法:利用强学习器+弱学习器构成新的强学习器,不断重复此过程形成最终的学习器。弱学习器学习的是强学习器的残差

 

提升树

若前向分步算法的弱学习器是CART树,则该集成学习算法成为提升树算法

如图所示,最终的分类器为

梯度提升树GBDT

损失函数对预测值求偏导来模拟残差,提升树中用梯度代替

XGboost、LBGM、Catboosting都是实现GBDT的方法

XGboost:正则(解决过拟合)、并发、二阶泰勒

L1损失1-范数,L2损失2-范数。huber损失:组合使用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值