机器学习百试不爽之（二）xgboost

最新推荐文章于 2024-05-11 05:19:07 发布

画画讲故事的神仙

最新推荐文章于 2024-05-11 05:19:07 发布

阅读量171

点赞数 1

分类专栏：机器学习文章标签： gbdt xgboost CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jone5679/article/details/90900362

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文包含

xgboost的整体训练过程
每次迭代，树的生成过程
叶子分裂过程做详尽的公式说明

本文不包含

xgboost在实现上的并行计算优化（感兴趣的可以一起阅读源码交流）

gbdt是一种boosting方式集成弱学习器的模型，这里的弱学习器是CART, xgboost基于gbdt进行了改进，使得这种boosting算法在模型的预估效果上和训练的效率上都得到了提升。

一、整体训练过程：

算法在拟合的每一轮都生成一棵树
在拟合这个树之前需要计算损失函数在每一个样本上的一阶导数和二阶导数
贪心策略生成当前这一轮的树结构
知道了树结构后就知道每个叶子节点有哪些样本，可以得到该叶子节点上所有样本的一阶导数和（G表示）
计算每个叶子节点的预估值
当前树的预估结果➕前面预估结果，完成对模型的纠偏

假设总共训练了k轮，那么每个样本的最终预估结果是之前所有树预估结果的和。

二、How to 生成一棵树

因为树的结构千千万，所以一般用贪心策略来优化：

a、从深度为0的树开始，对每个叶节点枚举所有的可用特征

b、针对每个特征，把属于该节点的训练样本根据该特征值升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的最大收益（采用最佳分裂点时的收益）

c、选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，把该节点生长出左右两个新的叶节点，并为每个新节点关联对应的样本集

d、递归执行到满足特定条件为止

本文主要分析回归模型的情况（xgbost用于分类和回归训练过程基本一致，主要在于损失函数不一样。如果读者有要求，我再展开讨论。），回归问题也可以有很多损失函数进行选择，如平方损失，绝对损失和huber损失等等。这里讨论平方损失的情况。

如果树的结构是固定的，那么我们已经知道了每个叶子结点有哪些样本，所以每个叶子的一阶导数和G和二阶导数和H是确定的，但每个叶子的预估值不确定，那么令目标函数一阶导为0，则可以求得叶子结点对应的值

到现在，对于如何生成一颗CART树，应该就非常清楚了。关键在于O(data*features)时间复杂度下计算每一次的信息增益Gain(a)，以及在确认树结构后，如何快速的计算每个叶子节点的预估值（每个叶子节点中的样本预估值相同），即每个样本在这棵树下的预估值。

本人才疏学浅，若有出入，烦请不吝赐教。蟹蟹~

参考：

https://zhuanlan.zhihu.com/p/29765582

画画讲故事的神仙

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习百试不爽之（二）xgboost

本文包含xgboost的整体训练过程每次迭代，树的生成过程叶子分裂过程做详尽的公式说明本文不包含xgboost在实现上的并行计算优化（感兴趣的可以一起阅读源码交流）gbdt是一种boosting方式集成弱学习器的模型，这里的弱学习器是CART, xgboost基于gbdt进行了改进，使得这种boosting算法在模型的预估效果上和训练的效率上都得到了提升。一、整...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。