xgboost:分割Sparsity-aware Split Finding

最新推荐文章于 2023-10-30 22:05:21 发布

KPer_Yang

最新推荐文章于 2023-10-30 22:05:21 发布

阅读量485

点赞数

分类专栏：机器学习文章标签：算法机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KPer_Yang/article/details/129344698

版权

机器学习专栏收录该内容

87 篇文章 20 订阅

订阅专栏

Sparsity-aware Split Finding¹

在许多现实问题中，输入 $x$ 是稀疏的是很常见的。造成稀疏性的可能原因有很多:

1)数据中存在缺失值；

2)统计中频繁出现零项；

3)特征工程的处理结果，如独热编码。

重要的是使算法意识到数据中的稀疏模式。为此，在每个树节点上增加一个默认方向，如图所示。当稀疏矩阵x中缺少一个值时，实例将被分类到默认方向。

图中是具有默认方向的树结构。当缺少拆分所需的特征时，示例将被分类到默认方向。

在这里插入图片描述

在每个分支中有两个默认方向的选择。从数据中学习最优默认方向。算法如图3所示。关键的改进是只访问未丢失的特征 $I_k$ 。该算法将不存在作为缺失值，并学习处理缺失值的最佳方向。

在这里插入图片描述

据我们所知，大多数现有的树学习算法要么只是针对密集数据进行优化，要么需要特定的过程来处理有限的情况，比如分类编码。XGBoost以统一的方式处理所有稀疏模式。更重要的是，我们的方法利用稀疏性使计算复杂度与输入中非缺失项的数量成线性。图5显示了在Allstate-10K数据集上稀疏感知和naive实现的比较(第6节给出了数据集的描述)。我们发现稀疏感知算法比naive版本的运行速度快50倍。这证实了稀疏感知算法的重要性。

在这里插入图片描述

图5:稀疏感知算法对Allstate-10K的影响。数据集稀疏主要是由于独热编码。稀疏性感知算法比不考虑稀疏性的原来版本快50倍以上。[]

参考：

XGBoost: A Scalable Tree Boosting System ↩︎

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KPer_Yang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。