GBDT 梯度提升决策树

最新推荐文章于 2024-09-23 12:50:51 发布

Yetongfff

最新推荐文章于 2024-09-23 12:50:51 发布

阅读量828

点赞数

分类专栏：学习笔记文章标签：算法 GBDT 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/imfengyitong/article/details/72650963

版权

学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

背景知识

决策树

略

boosting

boosting提升方法可以表示为多个弱分类器的权重和：
这里写图片描述

其中的w是权重，Φ是弱分类器(回归器)的集合,其实就是一个加法模型(即基函数的线性组合)
boosting的前向分布算法，实际上是一个贪心算法，也就是在每一步求解弱分类器Φ(m)和其参数w(m)的时候不去修改之前已经求好的分类器和参数：
这里写图片描述
这里β代替w表示权重，图中的b是之前说的Φ，即弱分类器。

根据损失函数的不同，衍生了不同的boosting算法：

所谓的Gradient Boosting 其实就是在更新的时候选择梯度下降的方向来保证最后的结果最好，一些书上讲的“残差” 方法其实就是L2Boosting吧，因为它所定义的残差其实就是L2Boosting的Derivative。

GBDT

对于决策树，其实就是对特征空间的区域划分，每个区域返回某个值作为决策树的预测值，决策树有几个叶子节点就把空间划分了几部分，如：

$\qquad\qquad$ 这里写图片描述 $\qquad\qquad\quad$
那么树可以表示为：

其中， $c_j$ 表示区域 $R_j$ 的数值，组成了该决策树的参数：这里写图片描述， J表示树的叶子节点总数。

回归问题的前向分步算法：

在前向分步算法的第m步，给定当前模型fm-1(x),需求解:
这里写图片描述
得到第m棵数的参数。

当采用平方平方误差损失函数(L2Boosting)时，
这里写图片描述

其损失变为：
这里写图片描述

其中：
这里写图片描述
是上一轮模型的残差(residual),所以，对回归问题的提升树算法来说，第k轮迭代，只需输入上一轮的残差，即只需简单地拟合上一轮模型的残差。

总体算法步骤：

对比

与Adaboost： 二者都是通过加法模型对弱分类器进行线性组合，而AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值；GBDT通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型。
与随机森林： 随机森林是bagging，GBDT是boosting。

Reference

http://blog.csdn.net/sb19931201/article/details/52506157
http://blog.csdn.net/dark_scope/article/details/24863289
http://www.jianshu.com/p/005a4e6ac775
http://www.36dsj.com/archives/21036

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。