XGBoost

futurewq

已于 2023-03-15 18:47:02 修改

阅读量316

点赞数

分类专栏：面试文章标签： python 算法人工智能

于 2023-02-09 16:37:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangrongrongwq/article/details/128954858

版权

面试专栏收录该内容

27 篇文章 3 订阅

订阅专栏

目录

1.XGBoost推导示意图

2.分裂节点算法

Weighted Quantile Sketch

3.对缺失值得处理

1.XGBoost推导示意图

XGBoost有两个很不错得典型算法，分别是用来进行分裂节点选择和缺失值处理。

Xgboost的原理解释，下面的这个讲的很清楚。

XGBoost超详细推导，终于有人讲明白了！

另外可以看下这个博客

XGB算法梳理_futurewq的博客-CSDN博客

树模型(六)：XGBoost_xgboost模型例题_雪伦_的博客-CSDN博客

2.分裂节点算法

Weighted Quantile Sketch

对于特征切点点得选择，xgboost不单单是采用简单得分位数得方法，而是对分位数进行加权(使用二阶梯度h)，称为:weighted quantile sketch.

对特征k构造multi-set得数据集: $D_k=(x_{1k},h_1),(x_{2k},h_2),...,(x_{nk},h_n)$ ,其中 $x_{ik}$ 表示样本i得特征k得取值，而 $h_i$ 则为对应得二阶梯度。

式子中分子是x小于z得所有样本对应得h之和(即小于z得样本加权和，权重为h)，分母为所有样本得加权和。该式子表达了第k个特征小于z得样本比例，和分位数相似，不过这里是按照二阶梯度进行累计。

而候选切分点 $S_k={s_{k1},s_{k2},...,s_{kl}}$ 要求：

即让相邻两个候选分裂点带入 $r_k(z)$ 中，相差不超过某个值 $\varepsilon$ ，由于，最终会切分处 $1/\varepsilon$ ,如下面例子：

选取 $\varepsilon$ =1/3，会得到三个桶，h总和1.8，因此 $s_{k1}=0.6,s_{k2}=1.2$ .

到这里，xgboost得分裂点选择就讲完了，然后再基于分裂前后得损失大小去判断选择最终得分裂点即可。但是还有个问题需要解答，为什么选择h而不是g或者其他?证明如下：

这里有两个问题

一个是为什么需要加权？

现在我们回到xgboost中，在建立第i棵树的时候已经知道数据集在前面i-1棵树的误差，因此采样的时候是需要考虑误差，对于误差大的特征值采样粒度要加大，误差小的特征值采样粒度可以减小，也就是说采样的样本是需要权重的。

为什么用hi加权?

就是上面的那个推导。对于这个直观感受(方便我们理解)，如果损失函数是sqaure loss,即Loss(y,y')=(y-y')^2，则h=2,那么实际上是不带权(每个样本的权重一样)。如果损失函数是Log loss，则h=pred*(1-pred)。这个是个开口朝下的一元二次函数，所以最大值在pred=0.5。当pred在0.5附近，值都比较大，也就是权重都比较大，在切直方图时，我们希望桶比较均匀，因此这部分就会被切分的更细。

3.对缺失值得处理

xgboost模型得一个优点就是允许特征存在缺失值。对缺失值得处理方式如下：

在特征k上寻找最佳split point时，不会对该列特征missing得样本进行遍历，而只对该列特征值为non-missing得样本上对应得特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找split point得时间开销
在逻辑实现上，为了保证完备性，会将该特征值missing得样本分别分配到左叶子节点和有叶子节点，两种情况都计算一遍后，选择分裂后增益最大得那个方向(左分支或右分支)，作为预测时特征值确实样本得默认分支方向。
如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值得划分方向放到右子节点。

xgboost常见面试题：

珍藏版 | 20道XGBoost面试题_无名氏a的博客-CSDN博客_xgboost面试题

【xgboost】常见面试题_数分面试加油的博客-CSDN博客_xgboost 算法面试题目

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XGBoost

xgboost
复制链接

扫一扫

专栏目录

futurewq CSDN认证博客专家 CSDN认证企业博客

码龄9年

146: 原创

2万+: 周排名

46万+: 总排名

18万+: 访问

: 等级

2444: 积分

556: 粉丝

71: 获赞

20: 评论

449: 收藏

私信

关注

热门文章

分类专栏

面试 27篇
elasticsearch 1篇
redis 1篇
hadoop 5篇
python 21篇
machine learning competition 7篇
machine learning 13篇
statistics 4篇
AI 20篇
Algorithm 4篇
lihongyi 8篇
opencv 4篇
leedcode 50篇

最新评论

检测com类中CLSID为{F9364159-6AED-4F9C-8BAF-D7C7ED6160A8}的组件时失败，错误80040154
BAAAM_: 没装瑞浪报表
S^3-Rec:self-supervised learning for sequential recommendation with mutual information maximization
futurewq: 数据集的
S^3-Rec:self-supervised learning for sequential recommendation with mutual information maximization
y16639383292: 实验5.3.3验证数据稀缺性，用完整数据集的20%，40%，60%是数据集所有项目的20%，40%，60%还是每个用户交互的序列长度的20%，40%，60%，还是什么呐
GBDT精讲
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616689996?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
XGB算法梳理
xiaotian127: 厉害，写的很详细，尤其是节点划分时的分数的选择，介绍的很清晰，感谢大佬的分享

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。