介绍一下xgb_再谈XGBoost原理

最新推荐文章于 2024-05-11 05:19:07 发布

孤雁长飞

最新推荐文章于 2024-05-11 05:19:07 发布

阅读量1.1k

点赞数

文章标签：介绍一下xgb

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30444625/article/details/112900655

版权

本文深入介绍了XGBoost，一种基于梯度提升决策树的机器学习算法。内容涵盖了GBDT的基础，回归树与分类树的区别，XGBoost的目标优化函数，以及其如何通过贪心策略、正则化、shrinkage和采样技术避免过拟合。此外，还提及了XGBoost支持自定义损失函数和并行计算的能力，以及针对稀疏数据的处理方法。

摘要由CSDN通过智能技术生成

GBDT的核心就在于累加所有树的结果作为最终结果。

分类树

决策树的分类算法有很多，以具有最大熵的特征进行分类，以信息增益特征进行分类(ID3)，以增益率特征进行分类(C4.5)，以基尼系数特征进行分类(CART分类与回归树)等等。这一类决策树的特点就是最后的结果都是离散的具体的类别，比如苹果的好/坏，性别男/女。

回归树

回归树与分类树的流程大致一样，不同的是回归树在每个节点都会有一个预测值，以年龄为例，该节点的预测值就是所有属于该节点的样本的年龄的均值。

那回归树是根据什么来划分特征的呢？

分类树的最大熵、信息增益、增益率什么的在回归树这都不适用了，回归树用的是均方误差。遍历每个特征，穷举每个特征的划分阈值，而这里不再使用最大熵，使用的是最小化均方差——(每个人的年龄-预测年龄)^2/N，N代表节点内样本数。这很好理解，和预测年龄差距越大，均方差也就越大。因此要找到均方差最小的阈值作为划分点。

划分的结束条件一般有两个：第一是划分到每一个节点都只包含一个年龄值，但是这太难了;第二就是划分到一定的深度就停止，取节点内数据的均值作为最终的预测值。

XGBoost

XGBoost其实是由一群训练出来的CART回归树集成出来的模型。

明确目标

我们的目标其实就是训练一群回归树，使这树群的预测值尽量接近真实值，并且有尽可能强大的泛化能力。来看看我们的优化函数：

i表示的是第i个样本，前一项是表示的是预测误差。后一项表示的是树的复杂度的函数，值越小表示复杂度越

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
介绍一下xgb_再谈XGBoost原理

GBDT的核心就在于累加所有树的结果作为最终结果。分类树决策树的分类算法有很多，以具有最大熵的特征进行分类，以信息增益特征进行分类(ID3)，以增益率特征进行分类(C4.5)，以基尼系数特征进行分类(CART分类与回归树)等等。这一类决策树的特点就是最后的结果都是离散的具体的类别，比如苹果的好/坏，性别男/女。回归树回归树与分类树的流程大致一样，不同的是回归树在每个节点都会有一个预测值，以年龄为例...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。