TabLLM: Few-shot Classification of Tabular Data with Large Language Models阅读笔记

天官赐福百无禁忌

已于 2023-12-29 18:45:59 修改

阅读量2k

点赞数 26

分类专栏：数据湖相关论文阅读笔记 LLM 文章标签：语言模型人工智能自然语言处理

于 2023-12-29 17:26:55 首次发布

本文链接：https://blog.csdn.net/nbdnbb/article/details/135295588

版权

3 篇文章

订阅专栏

1 篇文章

订阅专栏

论文发表：2023 AISTATS CCF C
论文地址：https://proceedings.mlr.press/v206/hegselmann23a.html
代码地址：https://github.com/clinicalml/TabLLM

摘要

本文研究了大语言模型在表格数据的zero-shot和few-shot分类中的应用。

本文将表格数据序列化为自然语言字符串并连接分类问题的简短描述，来提示大型语言模型。

在本文使用了多种表格序列化的方法，包括模板，表到文本模型和大型语言模型。

在这里插入图片描述

背景：表格数据无处不在，但是获得足够的标记数据来训练监督学习算法进行分类可能是困难的，因此，我们寻求开发可以利用先验知识的方法，以提高=在具有少量训练示例的设置预测性能。

深度学习无法适用表格分类任务：虽然深度学习在计算机视觉和自然语言处理方面取得了突破，但这种成功尚未扩展到表格领域。

原因：性能上的这种差异可以归因于表格数据与文本或图像之间的差异;表格数据缺乏局部性，包含混合的数据类型，并且与文本或图像数据中的特征数量相比，列的数量通常相当小。

LLM崭露头角：LLM在少量文本分类和生成任务上表露出很好的性能。且由于所有的知识都编码在它们的参数中，LLM需要很少或根本不需要标记的训练数据来获得这种良好的性能。

本文工作：TabLLM，这是一个通用的框架，利用LLM来实现表格数据的few-shot分类。

实现方法：我们将一行序列化为自然语言表示并连接上分类问题的简短描述提示给LLM。
- 例如，对于风险分层，该序列化可以列出相关的患者属性并将其与**“该患者是否住院？**”拼接
多样的表格序列化方式：我们用九种不同的序列化和不同大小的T0语言模型进行实验
微调方法：我们使用参数有效的微调方法T-Few以使用一些标记的示例来更新LLM的参数。
效果：尽管它很简单，但我们发现TabLLM在几个基准数据集上的性能优于之前基于深度学习的表格分类方法，在少样本提示下效果好。

有许多尝试用于表格数据的表示学习。

Yin等人（2020）使用语言模型对表格数据上的自然语言查询进行语义解析。
Li等人（2020）研究了语言模型对表格数据执行实体匹配的能力，即确定两行是否引用同一对象。
- Deep entity matching with pre-trained language models. VLDB
Harari和Katz（2022）通过将每个表行与其他非结构化文本（例如，来自维基百科），他们从中生成了额外的特征。
- Few-shot tabular data enrichment using fine-tuned transformer architectures.
Narayan等人（2022）最近使用自回归语言模型GPT-3评估了上下文学习，用于表格数据清理任务。
- Can
  Foundation Models Wrangle Your Data?
Borisov等人（2022 b）介绍了一种LLM不可知方法来生成真实的表格数据
- Deep Neural Networks and Tabular
  Data: A Survey.