boosting,adaboost,boosting tree,gbdt

  • boosting

boosting是ensemble模型家族的一个大分支,另一个分支是以随机森林为代表的bagging模型。

boosting的基模型一般是弱学习器,而bagging的基模型一般为强学习器。boosting是串联形式,bagging是并联形式。boosting降低偏差;bagging降低方差。

  • adaboost

adaboost是最基本的boosting算法,它是分类算法。弱分类器是分段函数或者分类树;具体adaboost的算法步骤可以参考李航书籍;

需要说明的:

(1)adaboost等价于损失函数为指数函数的前向分步算法;

(2)自适应名称由来:可以证明adaboost训练误差在一定条件下存在上界,且以指数形式衰减。而与之相关的一个变量\lambda可以自适应调整。

  • boosting tree

1. 当基学习器为分类树时的boosting tree就是adaboost,损失函数是指数形式的L(y,f(x))=exp[-yf(x)];

2. 当基学习器为回归树时,此时采用平方损失函数:L(y,f(x))=(y-f(x))^2;每一次建树,都是拟合前一轮模型得到的残差;

具体例子见李航书籍

  • gbdt

gbdt的基分类器是CART的回归树;但是它不像回归boosting tree一样,直接求解残差。它采用了损失函数的负梯度在当前模型的值近似作为残差。这种做法泛化了损失函数的形式,不一定要为平方损失函数和指数损失函数。比如可以为绝对损失函数形式。

gbdt怎么做分类呢?

GBDT的分类算法从思想上和GBDT的回归算法没有区别,但是由于样本输出不是连续的值,而是离散的类别,导致我们无法直接去拟合类别输出的误差,为了解决这个问题,主要有两个方法: 
第一种方法是用指数损失函数,此时的GBDT会退化为AdaBoost算法, 关于GBDT退化为AdaBoost我会在另一篇博客中进行讨论 
第二种方法使用类似于逻辑回归的对数似然损失函数的方法,也就是说,我们用的是类别的预测概率值和真实概率值的差来拟合损失,本文讨论为也正是这种方法。由于对数似然损失函数有二分类和多分类的区别,GBDT处理分类问题也会分为二分类和多分类两种不同的形式。具体可以参考下面的链接。

参考:https://blog.csdn.net/Liangjun_Feng/article/details/80668461

http://www.cnblogs.com/pinard/p/6140514.html

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值