介绍
表格包含按行和列组织的信息,以及典型的基于 Transformer 的 LLM,例如在非结构化数据上训练的 BERT(Devlin 等人,2019)、T5(Raffel 等人,2020)和 GPT(Brown 等人,2020)使用标准语言建模目标的自然语言文本不考虑数据的表结构和底层组合性(Yu et al., 2021)。因此,许多关于表格理解的工作,通过表格和文本内容的联合学习(Yin et al., 2020)、表格语义解析的预训练(Liu et al., 2022; Jiang et al., 2022)来适应表格的LLM。综合基于模板的问题以提高表格推理能力(Gu et al., 2022)。通常,只有少量单元格包含导出问题答案所需的信息。不相关的表格数据会充当分散注意力的信息或噪音,导致性能不佳,因为LLMs很容易受到输入噪音的影响(Kumar 等人,2023;Chen 等人,2023a)。由于存在更多数据,性能下降在大型表中进一步放大。
只有少量单元格包含导出问题答案所需的信息。不相关的表格数据会充当分散注意力的信息或噪音,导致性能不佳,因为LLM很容易受到输入噪音的影响
图一解释:CABINET 和 DATER(基于 GPT-3 的情境学习方法)的比较。对于给定的示例,DATER 通过硬分解提取了错误的子表(导致有用信息丢失),导致 QA 推理器回答错误。 CABINET 在不明确删除内容的情况下对相关表格部分进行了更高的权重,从而允许 QA LLM 正确回答。
像DATER这种以问题为条件的表硬分解是次优的,因为如果不选择相关信息,后续的 QA 模型将无法纠正分解过程中产生的错误。
我们提出的框架 CABINET 通过根据与问题的相关性权衡表格内容、识别相关行和列以及突出显示相关单元格的内容来解决此问题。
核心思想
一个框架,使LLM能够通过抑制无关信息来专注于相关的表格数据。
方法介绍
1.两大部分
- 无监督相关性评分器(Unsupervised Relevance Scorer, URS):
URS 使用变换器编码器从问答系统接收问题和表格,并为表格中的每个数据点分配一个相关性分数。这些分数用来确定哪些数据对于回答问题是重要的。 - 基于表格解析的相关单元预测器:
这一模块通过解析表格来辅助 URS,首先生成一个解析声明,描述问题相关的行和列,然后高亮显示包含相关信息的单元格。
2.实现框架
图 2:CABINET 架构概述。该表被线性化(步骤 1),并通过底层 QA LLM 的嵌入层与问题一起嵌入(步骤 2)。嵌入序列被传递给无监督相关性评分器,该评分器为每个表标记分配相关性分数(步骤3)。同时,解析语句生成器描述与导出答案(步骤 4)相关的行和列的标准,该答案用于识别相应的单元格并分配基于单元格的相关性分数(步骤 5)。将无监督和基于单元格的相关性相结合(步骤 6),并用于对表格内容(步骤 7)进行权衡,以供 QA LLM 生成答案(步骤 8)。
框架整体流程如下:
- 线性化表格(Linearizing Table):
- 表格数据被线性化处理,以适应模型输入的需求。这一步骤涉及将表格的行和列转换为连续的文本序列,使用特殊标记(如[HEAD]和[ROW])来指示列头和行的开始。
- 问题和表格的嵌入(Embedding Question and Table):
- 线性化后的表格数据和问题文本一起输入到模型中,并通过嵌入层将文本转换为向量形式。这一步骤是为了将自然语言和表格内容统一为同一种形式,便于模型处理。
- 无监督相关性评分(Unsupervised Relevance Scoring):
- 利用transformer编码器计算每个表格令牌的相关性分数。这个评分反映了每个数据点对回答问题的重要性。
- 生成解析声明(Generating Parsing Statement):
- 解析声明生成器接受问题输入,并生成描述哪些行列是相关的自然语言声明。这个声明用于指导后续的单元格高亮显示步骤。在此步骤中手动注释了300个样本用于微调解析声明生成器(PSG)
- 单元格高亮显示(Cell Highlighting):
- 根据解析声明,模型识别出包含关键信息的单元格,并将这些单元格的内容高亮显示,增加其在最终评分中的权重。
- 合并相关性分数(Combining Relevance Scores):
- 将无监督的相关性分数和基于单元格的相关性分数结合,为每个令牌生成最终的相关性权重。
- 权重化表格内容(Weighting Table Content):
- 根据步骤6中计算的相关性权重调整每个表格令牌的嵌入,强调对回答问题更为重要的内容。
- 问题回答(Question Answering):
- 加权后的嵌入被送入问答模型(QA LLM),模型基于处理过的输入生成最终的答案。
整个流程的目的是通过减少无关信息的干扰并强化关键信息,提高模型对表格问答任务的准确性和效率。这种结合无监督和弱监督方法的框架使得CABINET在处理各种大小和复杂度的表格数据时具有很强的适应性和鲁棒性。
实验
1. PERFORMANCE OF CABINET ON TABLE QA
2. HOW ROBUST IS CABINET TO NOISE AND IRRELEVANT INFORMATION?(对噪音和不相关信息的鲁棒性)
我们通过扰乱测试分组中的表来引入噪声,并报告性能下降的相对百分比。我们执行四种类型的扰动:1)行添加(RA):通过添加包含相同列数的另一个表中的行来将噪声插入表中; 2)行排列(RP):随机排列行的顺序(Pi et al., 2022); 3)列排列(CP):随机排列列排序; (4)单元格替换(CR):用其他表格的内容替换某些单元格的内容。我们分别执行每个扰动以获得每个数据集的四个扰动测试分割。
3.IMPACT OF TABLE SIZE ON PERFORMANCE(表大小对性能的影响)
4.DISCUSSION ON THE IMPACT OF DIFFERENT DESIGN CHOICES FOR CABINET(不同设计选择的影响)
总结
文章研究了表格问答问题,并重点关注识别表格的相关部分以得出答案。一般来说,只需要表格数据的一小部分来回答问题,并且由于LLMs容易受到噪音影响,无关信息会导致性能不佳。在大表的情况下,这个问题会进一步加剧。我们提出的框架 CABINET 通过根据与问题的相关性权衡表格内容、识别相关行和列以及突出显示相关单元格的内容来解决此问题。 CABINET 在三个常用的具有挑战性的基准上建立了新的 SoTA,其性能优于特定于表的模型,以及采用更大的 GPT-3 规模模型的上下文学习的方法。我们凭经验证明,CABINET 对噪声更稳健,并且对于较大的表具有良好的泛化性,这表明它在减轻噪声和克服通常在训练过程中学到的表结构偏差方面的功效。