本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。
原文链接:Kaggle知识点:TabM深度学习模型(Jane Street比赛高分模型)
表格数据的监督学习在工业应用中非常普遍。传统的非深度学习方法中,梯度提升决策树(GBDT)是当前的最优解决方案。
但近年来,深度学习模型在表格数据上的表现有所提升,甚至有研究表明在某些学术基准上超越了GBDT。
从实践角度来看,表格深度学习模型是否提供了明显的基线模型仍不明确。 现有文献中,新方法相对于简单MLP基线的性能提升规模和一致性并未得到充分分析。
基于以上问题,作者对现有的表格深度学习方法进行了全面评估,发现非MLP模型尚未能提供令人信服的替代方案。但通过参数高效的集成(parameter-efficient ensembling)来显著改进表格数据的MLP模型。
TabM模型基于MLP和BatchEnsemble的变体。BatchEnsemble是一种现有的技术,允许在一个模型中实现多个预测。
ICLR 2025 (审稿中)https://arxiv.org/pdf/2410.24210
TabM 模型使用
安装环境: