DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

DeepGBM是一种融合GBDT和深度学习的框架,旨在解决GBDT在处理离散值和在线预测时的挑战。通过将GBDT转化为神经网络(GBDT2NN)和利用CatNN处理离散值,DeepGBM在离线和在线场景中实现了优势互补。论文介绍了Single Tree和Multiple Tree Distillation技术,并在多个数据集上展示了其优越性能。
摘要由CSDN通过智能技术生成

DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

论文链接:https://dl.acm.org/citation.cfm?id=3330858
代码链接:https://github.com/motefly/DeepGBM

背景

Guolin Ke是lightgbm的核心作者之一,我幸运的作为Hui Xue的实习生去参加了NIPS2018的表数据的AutoML比赛,这个比赛中的三个数据集也被这篇论文选为benchmark的测试数据集,他们对表数据的理解非常深刻,这篇论文是他们在KDD2019的投稿,这篇论文本身写的很好,通俗易懂,我读完后再从自己的角度用大白话讲一下,方便大家对这篇文章的理解。

表数据的输入类型从业务角度可以有多种,比如时间列,离散列,连续值列,多值列,字典列(key-value对儿),但是从模型的角度看只有两种,离散列和连续值列,目前我见过的表数据的AutoML也都是把业务类型的有实际意义的列变换成离散列和连续值列这两种情况,比如时间列我们可以做一些时间特征(提取年月日时分秒,是否是周末),多值列可以用tfidf提取特征,字典列可以展开当做稀疏的特征。

在表数据上竞赛圈目前大家最常用的模型就是gbdt(lightgbm, xgboost),FM/FFM(xlearn)

概述

经典模型各有优劣,主要是两个角度,离散值还是连续值,在线场景还是离线场景。

挑战

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值