文章主要内容总结
本文聚焦于小样本表格学习(Few-shot Tabular Learning)难题,提出了Latte框架,借助大语言模型(LLMs)的潜在知识优化下游模型训练,有效缓解了小样本场景下的数据不足与过拟合问题。具体内容如下:
-
问题背景
- 小样本表格学习因标注成本高,传统监督学习难以有效建模,尤其在医疗、金融等领域数据稀缺问题显著。
- 现有基于LLMs的方法存在两大局限:测试时知识提取导致延迟高(如In-context、TABLET),或依赖文本级知识引发特征工程不可靠(如FeatLLM),且未利用无标注数据。
-
Latte框架设计
- 语义感知表格编码器(Semantic-aware Tabular Encoder):融合特征语义(如列名描述)与数