ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)

最新推荐文章于 2021-08-14 17:00:00 发布

frank_hetest

最新推荐文章于 2021-08-14 17:00:00 发布

阅读量425

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hestendelin/article/details/102548921

版权

文章介绍了如何在GBDT和RF模型中找到有影响力的训练样本，提出留一重训练和影响力函数两种度量方法，并通过实验展示了提出的FastLeafRefit算法的有效性和效率。实验表明，尽管留一法假设通常不成立，但可以通过梯度响应来衡量样本影响。算法实现已开源。

摘要由CSDN通过智能技术生成

Finding Influential Training Samples for Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky, Pavel Serdyukov, Maarten de Rijke

University of Amsterdam, Yandex, Princeton University

ICML 2018

http://proceedings.mlr.press/v80/sharchilev18a/sharchilev18a.pdf

这篇文章旨在解决如何寻找特定集成树算法模型中影响较大的训练样本，这里的集成树算法包含随机森林(RF)和梯度提升决策树(GBDT)等。

针对这种问题，一种自然的方式就是研究留一重训练对模型预测结果的影响，留一重训练方法每次都是从训练样本中留出一个不参与训练。

最近一些研究表明，对于参数模型，这种分析的实现在计算上可以更高效。借鉴这种思路，作者们提出几种扩展该框架的方法，使其适用于非参数GBDT集成模型，其中包含一个假设，即树结构是固定的。此外，作者们提出一种通用方案，能够对性能和计算复杂度进行折衷平衡，同时可以更好地对所提方法加以近似。

在多个实验场景和用例情景中的实验表明，这篇文章所提方法找到的有影响力的训练样本相对基准方法质量较好，计算也比较高效。

这篇文章利用两种方法来度量影响力。一种基于留一重训练，一种基于影响力函数。不仅可以处理训练样本扰动对树结构的影响，而且可以通过预计算特定梯度来降低计算复杂度。

实验中主要验证了三件事情

GBDT问题描述如下

其中一种基于梯度法

另一种基于牛顿法

这篇文章的符号定义如下

留一法的数学表示如下

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。