TabLLM: Few-shot Classification of Tabular Data with Large Language Models阅读笔记

论文发表:2023 AISTATS CCF C
论文地址:https://proceedings.mlr.press/v206/hegselmann23a.html
代码地址:https://github.com/clinicalml/TabLLM

摘要

本文研究了大语言模型在表格数据的zero-shot和few-shot分类中的应用。

本文将表格数据序列化为自然语言字符串并连接分类问题的简短描述,来提示大型语言模型。

在本文使用了多种表格序列化的方法,包括模板,表到文本模型和大型语言模型。

在这里插入图片描述

一. 介绍

背景:表格数据无处不在,但是获得足够的标记数据来训练监督学习算法进行分类可能是困难的,因此,我们寻求开发可以利用先验知识的方法,以提高=在具有少量训练示例的设置预测性能。

深度学习无法适用表格分类任务:虽然深度学习在计算机视觉和自然语言处理方面取得了突破,但这种成功尚未扩展到表格领域。

  • 原因:性能上的这种差异可以归因于表格数据与文本或图像之间的差异;表格数据缺乏局部性,包含混合的数据类型,并且与文本或图像数据中的特征数量相比,列的数量通常相当小。

LLM崭露头角:LLM在少量文本分类和生成任务上表露出很好的性能。且由于所有的知识都编码在它们的参数中,LLM需要很少或根本不需要标记的训练数据来获得这种良好的性能。

本文工作:TabLLM,这是一个通用的框架,利用LLM来实现表格数据的few-shot分类。

  • 实现方法:我们将一行序列化为自然语言表示并连接上分类问题的简短描述提示给LLM。
    • 例如,对于风险分层,该序列化可以列出相关的患者属性并将其与**“该患者是否住院?**”拼接
  • 多样的表格序列化方式:我们用九种不同的序列化和不同大小的T0语言模型进行实验
  • 微调方法:我们使用参数有效的微调方法T-Few以使用一些标记的示例来更新LLM的参数。
  • 效果:尽管它很简单,但我们发现TabLLM在几个基准数据集上的性能优于之前基于深度学习的表格分类方法,在少样本提示下效果好。

二. 相关工作

1. 表格数据上的机器学习

有许多尝试用于表格数据的表示学习。

  • 自监督目标主要围绕着掩蔽单元格的预测、损坏单元格的识别或校正以及增强的对比损失

2. 表格数据的大型语言模型

1)利用LLM实现与表格有关的任务

  • Yin等人(2020)使用语言模型表格数据上的自然语言查询进行语义解析。
  • Li等人(2020)研究了语言模型对表格数据执行实体匹配的能力,即确定两行是否引用同一对象。
    • Deep entity matching with pre-trained language models. VLDB
  • Harari和Katz(2022)通过将每个表行与其他非结构化文本(例如,来自维基百科),他们从中生成了额外的特征
    • Few-shot tabular data enrichment using fine-tuned transformer architectures.
  • Narayan等人(2022)最近使用自回归语言模型GPT-3评估了上下文学习,用于表格数据清理任务
    • Can
      Foundation Models Wrangle Your Data?
  • Borisov等人(2022 b)介绍了一种LLM不可知方法来生成真实的表格数据
    • Deep Neural Networks and Tabular
      Data: A Survey.

2)序列化表格为自然文本

上述工作都依赖于简单的列表或句子序列化

  • Yin等人(2020)还在序列化的字符串中包含了列数据类型。
  • 只有Bertsimas等人(2022)研究了不同的序列化变体,但这是在从BERT风格的语言模型中派生特征嵌入的不同上下文中。
  • Dinh等人(2022)介绍的LIFT方法并考虑了不同的静态序列化模板,以评估在输入中包含列名的效果。

本文包括自动方法和消融评估的重要性,功能值的九个序列化技术。

三. 方法

1. 为表格分类任务实现的TabLLM

每一行作为一个数据x【有d列】,会对应一个分类y。

2. TabLLM实例化

LLM的序列化方法

对于提示,本文只做简单的分类任务提示,不做提示工程。

本文评估了几种生成自然文本的方法,以创建更接近LLM训练分布的输入,从而提高零和极少数镜头的性能。

1)列名和特征值

  • 以任意列顺序

2)文本模板

  • 按照人工给的特定模板

3)使用HuggingFace(Narrativaai/bloom-560 m-finetuned-totto -table-to-text)的表格到文本生成任务进行了微调的LLM。

  • 为了确保序列化包括所有数据,我们将每个列值元组单独交给模型并连接输出。

4)文本T0:我们使用具有11B参数的LLM T0(bigscience/T0pp)。

  • T0模型是一种基于多任务提示训练的大型语言模型,它可以实现零样本任务泛化的能力。
  • 我们将一行拆分为两个列值元组对。我们将它们分别发送到LLM,并提示“将此信息作为一个句子编写:“,然后组合输出

5)利用GPT-3的API,一次序列化所有特性,并提示“将输入中的所有列表项重写为自然文本”。

下面的方法主要用作消融实验

6)仅列出值:仅列出要素值的模板。我们想评估列名是否有助于分类性能。

7)List Permuted Names列名称被排列的列表模板。因此,错误的列名与每个特征值相关联。在所有示例中,排列是相同的。我们执行这种消融来研究列名和特征值之间的正确关联的相关性。

8)List Permuted Values:所有示例中具有一致排列值的列表模板。我们为每列生成一个置换,并将此映射应用于所有列值。对于连续值,我们使用10个统一的bin。

  • 这测试LLM是否使用由零炮和少炮分类的特征值编码的细粒度信息。

9)List Short:最多包含10个特征的列表模板。我们只考虑特征数量超过LLM输入限制的医疗数据集。

  • 我们想研究较少信息的影响
  • 26
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值