GBDT小结

jzwei023

于 2021-04-11 21:27:14 发布

阅读量96

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jzwei023/article/details/115593275

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差（负梯度），这个残差就是一个加预测值后能得到真实值的累加量。比如A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里面我们把A的年龄设为6岁去学习，比如第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里面把A的年龄设为1岁去学习，继续学。Boosting的最大好处在于，每一步的残差计算其实变相的增大了分错的instance的权重，而已经分对的instance则都趋于0。这样后面的树就能越来越专注那些前面被分错的instance。

GBDT为什么要用损失函数负梯度拟合损失，为什么不直接用预测值和真实值的差值来当残差呢？

GBDT从名字上来看，本质是借鉴了梯度下降法来实现目标函数的最小化，所以归根到底我们要拟合的是负梯度，这是下降最快的方向。

拟合预测值和真实值的差值也是可行的，但他不一定是最快的下降方式，而在目标函数是平方损失时，可以验证这时候负梯度恰好是预测值和真实值的差值，所以才有了拟合残差这样的说法。

均方差损失函数：

此时的负梯度是这样计算的：

所以，当损失函数选用均方损失函数是时，每一次拟合的值就是（真实值 - 当前模型预测的值），即残差。

但当目标函数不是平方损失时，我们当然还是希望用有最快的下降方向，也就是负梯度方向，这个时候残差也可以用，但是不如负梯度下降的快。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GBDT小结

GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差（负梯度），这个残差就是一个加预测值后能得到真实值的累加量。比如A的真实年龄是18岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里面我们把A的年龄设为6岁去学习，比如第二棵树的结论是5岁，则A仍然存在1岁的残差，第三棵树里面把A的年龄设为1岁去学习，继续学。Boosting的最大好处在于，每一步的残差计算其实变相的增大了分错的instance的权重，而已经分对的instance则都趋于0。这样后面的树就能越来越专注那些前面被
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。