重磅!TabPFN:小规模表格数据的革命性预测模型

   在生物医学、材料科学、经济学和气候科学等领域,表格数据(以行和列组织的电子表格)无处不在。传统上,梯度提升决策树(如XGBoost、CatBoost)在过去20年主导了表格数据的预测任务。然而,来自弗莱堡大学的研究团队近日在《Nature》发表了一项突破性研究,提出了一种名为TabPFN(Tabular Prior-data Fitted Network)的表格基础模型,在小规模数据集(≤10,000样本)上以惊人的速度(2.8秒)大幅超越所有现有方法。

Accurate predictions on small data with a tabular foundation model
Accurate predictions on small data with a tabular foundation model

TabPFN 的核心原理

   TabPFN 采用 “情境学习(ICL)”,与大语言模型原理相似。它不是手动设计算法,而是通过学习大量合成数据集,自动发现预测算法。它将生成的多样化合成数据集视为 “输入输出示例”,让模型从中学习算法,像基于声明式编程一样设计算法行为(图1a)。
###其工作流程如下:

  • 数据生成:定义生成过程(先验),合成多样表格数据集,模拟不同特征和目标间关系,给部分样本目标值 “戴上面具”,营造监督预测问题场景。
  • 预训练:训练 Transformer 模型(PFN),让它根据输入特征和未遮蔽样本作上下文,预测合成数据集的遮蔽目标,学会通用学习算法。
  • 真实世界预测:预训练后的模型面对新表格数据,以训练样本作上下文,一次性前向传递就能预测未知样本标签。
    图1 方法概述
    图1 方法概述

TabPFN 的架构设计 —— 为表格数据量身定制

   Transformer 架构虽强大,但本来为序列设计,处理表格数据时会忽略表格结构。TabPFN 提出新架构,给表格中每个单元格分配独立表示,采用双向注意力机制。这使模型对样本和特征顺序都 “无感”,训练效率高,还能处理比训练时更大的表格。而且,它能分开推理训练样本和测试样本,避免重复计算,在 10000 行 ×10 特征数据集上,CPU 推理加速约 300 倍,GPU 加速 6 倍。它还能处理回归任务,输出目标值概率分布,像双峰分布也能轻松搞定(图1b)。
##合成数据生成 —— 打牢模型基础
   TabPFN 的性能依赖合成训练数据集。它基于结构因果模型(SCM)生成数据,先采样数据集规模、特征数量等超参数,再构造有向无环图规定数据集因果结构,用随机噪声数据在图中传播,结合小神经网络、离散化机制、决策树结构等计算映射,还加高斯噪声,增加不确定性,最后提取各节点中间数据表示,合成包含丰富特征类型和复杂关系的数据集,让模型在 “实战演练” 中学习应对各种情况的策略(图2)。
图2 TabPFN先验机制概述
图2 TabPFN先验机制概述

质量分析 —— TabPFN 表现如何?

简单函数预测表现

   回归问题中,线性回归只能预测简单线性关系,MLP 在非平滑模式上表现差,CatBoost 只能拟合分段常数函数,TabPFN 却能轻松应对各种函数,无论是平滑还是非平滑的,还能直接建模输出分布。在光子双缝实验中,它仅 1.2 秒就预测出复杂光强模式,而传统方法要训练多个分位数模型才能拼凑出分布。
图3 TabPFN与基线方法在简单函数上的表现对比
图3 TabPFN与基线方法在简单函数上的表现对比

定量评估

   研究者拿 TabPFN 和一众基线模型在 AutoML Benchmark 和 OpenML-CTR23 上硬碰硬,涵盖 29 个分类数据集和 28 个回归数据集。结果显示,TabPFN 在默认配置和调参配置下都表现出色,超越 CatBoost 等对手。即使在对手调参 4 小时的情况下,TabPFN 默认配置在分类任务上 ROC AUC 比 CatBoost 高 0.187,回归任务上负 RMSE 比 CatBoost 高 0.051。
图4 TabPFN 在标准测试基准上的性能对比(≤10,000样本 & ≤500特征)
图4 TabPFN 在标准测试基准上的性能对比(≤10,000样本 & ≤500特征)

数据特性处理表现

   TabPFN 在处理各种数据特性时很稳健,面对无信息特征、离群值、样本或特征缺失等棘手问题,都能稳住阵脚,和其他方法相比,没明显弱点。
图5 TabPFN的跨数据集鲁棒性与集成调优对比分析
图5 TabPFN的跨数据集鲁棒性与集成调优对比分析

基础模型能力 —— TabPFN 的 “隐藏技能”

  TabPFN 不只是预测表现优异,还能做数据密度估计和生成新样本。在德国信用数据集上,它能估计数值特征概率密度函数和分类特征概率质量函数,助力异常检测;还能生成新表格数据样本,用于数据增强或隐私保护数据共享。在手写数字数据集上,其学到的嵌入表示能让不同类别形成不同簇,利于下游任务。而且,它支持微调,能在特定数据集类别上提升性能,还能通过 SHAP 方法解释预测,又准又易懂。
图6 TabPFN作为表格基础模型的典型应用场景
图6 TabPFN作为表格基础模型的典型应用场景

未来展望

  TabPFN 为小样本、多特征(最多 10000 样本、500 特征)表格数据处理带来新希望。未来,它有望拓展到更大数据集、处理数据漂移、挖掘跨相关表格任务的微调能力,还可能针对时间序列、多模态数据等打造专属先验,为生信等领域带来更多可能。
互动福利:你对TabPFN 的哪个应用场景最感兴趣?留言区讨论,点赞最高的同学可私信领取原文PDF+代码包!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值