DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks
论文链接:https://dl.acm.org/citation.cfm?id=3330858
代码链接:https://github.com/motefly/DeepGBM
背景
Guolin Ke是lightgbm的核心作者之一,我幸运的作为Hui Xue的实习生去参加了NIPS2018的表数据的AutoML比赛,这个比赛中的三个数据集也被这篇论文选为benchmark的测试数据集,他们对表数据的理解非常深刻,这篇论文是他们在KDD2019的投稿,这篇论文本身写的很好,通俗易懂,我读完后再从自己的角度用大白话讲一下,方便大家对这篇文章的理解。
表数据的输入类型从业务角度可以有多种,比如时间列,离散列,连续值列,多值列,字典列(key-value对儿),但是从模型的角度看只有两种,离散列和连续值列,目前我见过的表数据的AutoML也都是把业务类型的有实际意义的列变换成离散列和连续值列这两种情况,比如时间列我们可以做一些时间特征(提取年月日时分秒,是否是周末),多值列可以用tfidf提取特征,字典列可以展开当做稀疏的特征。
在表数据上竞赛圈目前大家最常用的模型就是gbdt(lightgbm, xgboost),FM/FFM(xlearn)
概述
经典模型各有优劣,主要是两个角度,离散值还是连续值,在线场景还是离线场景。