【机器学习】为什么GBDT可以超越深度学习

今天的讨论比较玄学,至于为什么用曹雪芹的诗当封面,看完文章明白啦。

目录

  • 背景

  • 玄学立论

  • 娓娓道来

  • 后话

背景

之前在知乎上回答了一个类似的问题,他们问为什么很多领域的比赛数据集上的GBDT效果那么好(比神经网络)。

回答这个问题前,先引入一个概念,目标的非线性。

非线性,应该是从原始输入到目标决策之间gap的刻画,用博大精深的中文语言为例:

比如垃圾话,就很直白,无非是问候几个人物,几个器官,几个行为。可以望文生义。

但是阴阳话,这个就非常难了。

感恩两字,你要看他真的感恩,还是在那里只能咸因。威武支持有希望了,你看他是不是在叼飞盘,这就很难。

这些都要看具体的场景,人物和环境,这就叫非线性。

人的解决问题,大概就是把一个复杂目标化简解决的能力,目的是降低问题的非线性,把一个问题去解决的过程。具体到数据挖掘上,应该是把特征表达出来的能力。

具体到问题,非线性比较高的场景有,序列建模,大规模离散ID建模,阴阳话识别,语音的特征表达。这些都是非线性非常高的场景,基本都超出了手动解决输入到目标之间gap的能力。

玄学立论

先用一个玄学的图来立论。

13067069a5f406821c24bb51ea765a0e.png

简而言之当你的认知超越问题的难度时候,可以通过一些方法把问题去复杂化,一般GBDT的效果会比NN好。

可这话真的太晦涩了。

我们回到之前的知乎上回答看看吧。

娓娓道来

先来几个问题作为引子吧,在回答为什么在实际的kaggle比赛中,GBDT效果非常好?

Q1.kaggle上的数据和赛题有什么特点?

Q2.GBDT和NN有什么特点?

Q3.为什么你很少看见Kaggle上用SVM LR立大功?

Q4.怎么根据数据特点进行模型选型?

Q5.近三年,有哪些非CV和NLP,Speech的比赛上印证了NN和GBDT的江湖地位之争


一句话来回答,本质上还是由数据和模型决定的。

再来说一下为什么kaggle里给你一种GBDT满天飞的感觉。

来到Q1kaggle上的数据和赛题有什么特点?

跟现在研究生入学,大部分用深度学习怼图片文本不一样,以前kaggle赛题,尤其是2019年前,有很大比例是工业界的表格数据。比如各种实际的预测预估任务,CTR,信用评分,销量预测等。他们有如下几个特点。

1.工业界的数据脏。异常点,缺失值,历史遗留问题造成的数据痕迹等等。

2.工业界的数据可解释性很强,每一列有真实的业务含义。

在以上背景下,再来到Q2.GBDT和NN有什么特点?

我们理一下树模型天然的优点

1.天然的鲁棒性,能自动从异常点,缺失值学到信息。不需要归一化。直接上手一把梭哈。

2.树可以半自动化地完成一些特征非线性表达的工作,而且基于贪心切分+采样等抗过拟合手段,能比较好的挖掘数据的非线性。

3.树的可解释性很好,能生产特征重要性,帮助你理解数据,改善特征工程。一个经典的套路是思考topN特征背后的逻辑,并围绕他们进行特征工程。

我们理一下NN模型的优点:

1.全自动化的特征工程和登峰造极的非线性表达能力,在数据表征范式统一,语义含义统一的稠密数据上(典型文本图像)上,NN一个打十个。另外,典型的像ID序列这种,人很难做出花来。也就是Bag of words或者借用embedding表达一下,还有一半是NN的功劳。

2.NN模型容量极大,在数据量的加持上,放大了1的优势。

给你们整个表吧


优势劣势
GBDT1.鲁棒,异常点,缺失值都是可以学习的信息
2.适中的非线性能力,在一定范围内是优势3.可解释性很好,可以帮你优化特征工程
1.非线性表达能力有限,很难在文本图像上有用。
2.数据量带来的边际增益不大,容易触及天花板。
NN1.全自动化的特征工程
2.模型容量大,可以利用数据量的优势
1.异常值敏感,依赖手动处理
2.不可解释,改进迭代的过程有点像蒙特卡洛,措施和结果的路径太远。3.过强的非线性中隐含过拟合和噪音。

但是看起来LGB的优点在其他模型也有,那么Q3为什么不是SVM和LR?

1.这两种模型获取非线性的方式太粗暴了,有种大炮打蚊子的感觉。依靠kernel强行把VC维提高,带来的噪声特别多,有用信息很少,并且kernal是有先验的,很容易被人设的参数带跑偏。这在实际业务数据中是非常致命的。

2.理论上LR+完美的特征工程可以很强,但是太难了,又不是人人都是特征工程大师。早期凤巢亿级特征跑LR效果特别好逐渐成为传说。

说了那么多,那么我们到Q4.怎么根据数据特点进行模型选型?

前面讲了很多了,大概可以从这4方面来的。A.数据量大小 B.数据到预测目标的非线性C.单列数据可解释性D.特征工程天花板高低

XGB/LGB/CTB在最后两个上很有优势。NN在前两个方面很有优势。


Q5.近三年,有哪些非CV和NLP,Speech的比赛上印证了NN和GBDT的江湖地位之争

NN胜出的比赛

第一个

Google Brain - Ventilator Pressure Prediction

这个比赛是医学数据,表结构。干的事情是根据呼吸机的呼吸阀百分比来预测压力。

Transfoermer+特征工程在排行榜上单模型可以杀到金牌。

示例代码:
TensorFlow Transformer - [0.112]

第二个

Riiid Answer Correctness Prediction

这个题目是根据学生历史学习情况,预测做题表现。

Transfoermer+特征工程胜出。

示例代码:

Riiid LGBM bagging2 + SAKT =0.781

GBDT完胜的比赛。

这部分就比较多了,不详细介绍了。

IEEE-CIS Fraud Detection | Kaggle

Elo Merchant Category Recommendation

Home Credit Default Risk

后话

好风凭借力,送我上青云。

力,就是人的主观能动性。

风,是模型本身的潜力。

风好不好,要看具体的问题。主观能动性的力量很强,但也是有天花板的。

在合适的问题上,选择合适的模型,发挥你的主观能动性。

这大概也是大部分问题的解决方式吧。

 
 
 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

3b6d63adeddfa0e13793b4ebf2c42094.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值