DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

最新推荐文章于 2024-04-15 09:32:45 发布

__Lingyue__

最新推荐文章于 2024-04-15 09:32:45 发布

阅读量1.5k

点赞数

分类专栏：机器学习 AutoML 文章标签：机器学习 deepgbm automl 论文表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cFarmerReally/article/details/103090248

版权

DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

论文链接：https://dl.acm.org/citation.cfm?id=3330858
代码链接：https://github.com/motefly/DeepGBM

背景

Guolin Ke是lightgbm的核心作者之一，我幸运的作为Hui Xue的实习生去参加了NIPS2018的表数据的AutoML比赛，这个比赛中的三个数据集也被这篇论文选为benchmark的测试数据集，他们对表数据的理解非常深刻，这篇论文是他们在KDD2019的投稿，这篇论文本身写的很好，通俗易懂，我读完后再从自己的角度用大白话讲一下，方便大家对这篇文章的理解。

表数据的输入类型从业务角度可以有多种，比如时间列，离散列，连续值列，多值列，字典列（key-value对儿），但是从模型的角度看只有两种，离散列和连续值列，目前我见过的表数据的AutoML也都是把业务类型的有实际意义的列变换成离散列和连续值列这两种情况，比如时间列我们可以做一些时间特征（提取年月日时分秒，是否是周末），多值列可以用tfidf提取特征，字典列可以展开当做稀疏的特征。

在表数据上竞赛圈目前大家最常用的模型就是gbdt(lightgbm, xgboost)，FM/FFM(xlearn)

概述

经典模型各有优劣，主要是两个角度，离散值还是连续值，在线场景还是离线场景。

挑战

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks

DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks论文链接：https://dl.acm.org/citation.cfm?id=3330858代码链接：https://github.com/motefly/DeepGBM背景Guolin Ke是lightgbm的核心作者之一，我幸...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。