DART booster

Yongchun_Zhu

于 2017-12-07 20:35:57 发布

阅读量5.1k

点赞数 3

文章标签： dart-boost dart XGBoost GBDT

本文链接：https://blog.csdn.net/Yongchun_Zhu/article/details/78745529

版权

DART是一种使用dropout技术的梯度提升树算法，旨在解决过拟合问题。与传统的XGBoost相比，DART在训练过程中随机丢弃部分树以增加模型的多样性。在DART中，新树的训练基于剩余树的加权梯度，且添加新树时会进行归一化处理，以保持整体模型的一致性。此外，DART还包含一系列参数，如dropout概率、归一化类型等，用于控制模型的行为。

摘要由CSDN通过智能技术生成

XGBoost基本上都是组合大量小学习率的回归树。在这种情况，越晚添加的树比越早添加的树更重要。
Rasmi根据深度神经网络社区提出一个新的使用dropout的boosted trees，并且证明它在某些情况有更好的结果。
以下是新的tree boosterdart的介绍。

原始文章

Rashmi Korlakai Vinayak, Ran Gilad-Bachrach. “DART: Dropouts meet Multiple Additive Regression Trees.”

特征

Drop Trees是为了解决过拟合
- 可以防止一些琐碎的树(为了纠正小错误)。
  因为训练中引入了随机，所以有以下的不同：
因为随机dropout不使用用于保存预测结果的buffer所以训练会更慢
因为随机，早停可能不够稳定

DART算法怎么运行

DART算法和MART(GBDT)算法主要有两个不同点：

dropout

计算下一棵树要拟合的梯度的时候，仅仅随机从已经生成的树中选取一部分。假设经过 $n$ 次迭代之后当前模型为 $M$ ， $M=\sum_{i=1}^nT_i$ ，当中 $T_i$ 是第 $i$ 次学习到的树。DART算法首先选择一个随机子集 $I\subset{\{1,...,n\}}$ ，创建模型 $\hat{M}=\sum_{i\in{I}}T_i$ 。树 $T$ 从 $\{(x,-L_x'(\hat{M}(x)))\}$ 学习得到，当中 L′