ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)


Finding Influential Training Samples for Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky, Pavel Serdyukov, Maarten de Rijke

University of Amsterdam, Yandex, Princeton University

ICML 2018

http://proceedings.mlr.press/v80/sharchilev18a/sharchilev18a.pdf

这篇文章旨在解决如何寻找特定集成树算法模型中影响较大的训练样本,这里的集成树算法包含随机森林(RF)和梯度提升决策树(GBDT)等。

针对这种问题,一种自然的方式就是研究留一重训练对模型预测结果的影响,留一重训练方法每次都是从训练样本中留出一个不参与训练。

最近一些研究表明,对于参数模型,这种分析的实现在计算上可以更高效。借鉴这种思路,作者们提出几种扩展该框架的方法,使其适用于非参数GBDT集成模型,其中包含一个假设,即树结构是固定的。此外,作者们提出一种通用方案,能够对性能和计算复杂度进行折衷平衡,同时可以更好地对所提方法加以近似。

在多个实验场景和用例情景中的实验表明,这篇文章所提方法找到的有影响力的训练样本相对基准方法质量较好,计算也比较高效。

这篇文章利用两种方法来度量影响力。一种基于留一重训练,一种基于影响力函数。不仅可以处理训练样本扰动对树结构的影响,而且可以通过预计算特定梯度来降低计算复杂度。

实验中主要验证了三件事情

GBDT问题描述如下

其中一种基于梯度法

另一种基于牛顿法

这篇文章的符号定义如下

留一法的数学表示如下

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值