Finding Influential Training Samples for Gradient Boosted Decision Trees
Boris Sharchilev, Yury Ustinovsky, Pavel Serdyukov, Maarten de Rijke
University of Amsterdam, Yandex, Princeton University
ICML 2018
http://proceedings.mlr.press/v80/sharchilev18a/sharchilev18a.pdf
这篇文章旨在解决如何寻找特定集成树算法模型中影响较大的训练样本,这里的集成树算法包含随机森林(RF)和梯度提升决策树(GBDT)等。
针对这种问题,一种自然的方式就是研究留一重训练对模型预测结果的影响,留一重训练方法每次都是从训练样本中留出一个不参与训练。
最近一些研究表明,对于参数模型,这种分析的实现在计算上可以更高效。借鉴这种思路,作者们提出几种扩展该框架的方法,使其适用于非参数GBDT集成模型,其中包含一个假设,即树结构是固定的。此外,作者们提出一种通用方案,能够对性能和计算复杂度进行折衷平衡,同时可以更好地对所提方法加以近似。
在多个实验场景和用例情景中的实验表明,这篇文章所提方法找到的有影响力的训练样本相对基准方法质量较好,计算也比较高效。
这篇文章利用两种方法来度量影响力。一种基于留一重训练,一种基于影响力函数。不仅可以处理训练样本扰动对树结构的影响,而且可以通过预计算特定梯度来降低计算复杂度。
实验中主要验证了三件事情
GBDT问题描述如下
其中一种基于梯度法
另一种基于牛顿法
这篇文章的符号定义如下
留一法的数学表示如下