#Paper Reading# DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

最新推荐文章于 2024-05-18 23:29:42 发布

John159151

最新推荐文章于 2024-05-18 23:29:42 发布

阅读量553

点赞数 1

分类专栏： paper reading DNN

本文链接：https://blog.csdn.net/John159151/article/details/103642744

版权

paper reading 同时被 2 个专栏收录

99 篇文章 4 订阅

订阅专栏

DNN

18 篇文章 0 订阅

订阅专栏

论文题目: DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks
论文地址: https://dl.acm.org/citation.cfm?id=3330858
论文发表于: KDD 2019

论文大体内容：
本文主要提出了DeepGBM模型，来整合NN与GBDT的优势，支持sparse特征和dense特征，并且是end2end的训练流程，也适用于online training。经过实验，该模型在常见的数据集（如Criteo等）上取得state-of-art的效果。

Motivation：
GBDT是传统的方法，对dense特征特别有效，目前也在工业届/比赛广泛使用，但是它不能很好处理sparse特征，而NN对sparse特征处理的特别好，如何将它们结合起来以取得更好的效果，是特别重要的。

Contribution：
本文作者提出DeepGBM模型，通过对sparse特征和dense特征分别使用2个不同的模型来处理，CatNN（任意处理sparse特征的模型，在这里直接使用DeepFM）来处理sparse特征，GBDT2NN（NN版GBDT）来处理dense特征，最后将两者结合以达到更好的效果；

1. DeepGBM的framework如下图，主要包含CatNN和GBDT2NN；

2. 这里的CatNN（DeepFM）的loss function；

3. GBDT2NN主要思想是要让NN模型得到如GBDT的效果，主要包含以下几项：
①每棵树使用的特征会直接用于NN模型，或者使用里面的Top Feature；
②最原始的Loss function如下，就是要让NN的结果接近GBDT的结果；

③由于树的叶子节点较多，作者为了高效，在叶子节点后面接一层FC，以减少节点数，来达到高效的目的，该方法被称为叶子编码蒸馏，其Loss function如下；

④扩展到多棵树上，使用了1个trick——随机Grouping，以更高效，其Loss function如下：

⑤输出结果则是多个Group相加；