论文浅尝 | CABINET: 基于内容相关性的表格问答降噪（ICLR2024）

最新推荐文章于 2024-10-07 06:31:57 发布

开放知识图谱

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量367

点赞数 5

文章标签：人工智能

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/140835267

版权

笔记整理：曲晏林，天津大学硕士，研究方向为大模型

论文链接：https://arxiv.org/html/2402.01155

发表会议：ICLR2024

1. 动机

通常，只有少数单元格包含所需的信息，不相关的表格数据充当分散的信息或噪声，导致性能次优。在大型表中，由于存在更多的数据，性能下降会进一步放大。DATER是最先进的表格QA方法之一，其将表格分解为更简单的子表格，其中包含通过向基于GPT-3的Codex提供上下文示例来回答问题所需的信息。这种以问题为条件的表格分解是次优的，因为如果没有选择相关信息，后续的QA模型无法纠正分解过程中产生的错误。为了减轻这种情况，本文提出了CABINET(基于内容相关性的表问答噪声降低)，根据与问题的相关性对不同表部分进行加权，而不明确删除任何内容。

2. 贡献

(1)提出了一种无监督方法，评估表格内容与输入问题的相关性，并根据相关性对表格内容进行加权，使 LLM 能够更关注相关信息，提高了问答的准确性。

(2)设计了一个基于表格解析的相关单元格预测器，通过生成解析语句描述哪些行和列与问题相关，并突出显示相应单元格的内容。

(3) CABINET 在 WikiTQ、FeTaQA 和 WikiSQL 等三个具有挑战性的表格问答数据集上取得了最先进的性能，显著优于各种表格 LLM 基线以及基于 GPT3 的上下文学习方法。

3. 方法

CABINET包含两个部分：

(1)无监督相关性评分器：将问题和表格作为输入，为表格内容提供相关性评分，将相关分数与相应的嵌入相乘作为QA模型编码器的输入。

(2)相关单元格预测器：首先用自然语言描述使用哪些行列推导答案，然后突出显示对应的单元格，通过线性组合将其中的内容与相关性评分相结合，从而提高突出显示的单元格中的内容得分。

图1 Cabinet架构

3.1 无监督相关性评分器

无监督相关性评分器用于为表内容令牌分配分数。由于注释与给定问题相关的表的单元格是乏味的，因此相关性评分器是无监督的，并通过答案生成损失与QA LLM一起训练。考虑表T和关于T的问题Q，

为了使T适合作为基于Transformers的LLM的输入，本文遵循常用的线性化方案将表扁平化为：

使用底层QA LLM的标记器标记字符串获得表标记：

将与连接获得作为输入，提供无监督评分器。第p个令牌的情境化表示为：

本文采用变分推断，假设相关性分数是一个不可观测的潜在变量，通过对令牌的上下文表示进行建模来进行估计，即相关性分数服从正态分布：

本文对表格令牌进行聚类，得到相关和非相关两类，过程中发现相关聚类质心和非相关聚类质心的单位向量并没有很好地分离，所以本文引入了分离损失：

此外，为了使一个聚类中不相关令牌的相关性分数较低，本文引入稀疏化损失，将相关和不相关聚类的logit值分别推至∞和-∞，使最终分数(应用sigmoid)接近1和0。

问题中的每个令牌都通过嵌入层生成一个嵌入向量作为Transformer的输入。表格中的每个令牌也通过嵌入层生成一个嵌入向量，然后将每个向量与之前计算得到的相关性分数相乘，使更相关的表格令牌的权重更大。

、和通过生成答案和真值答案token间的交叉熵损失进行训练。

3.2 通过表解析的相关单元预测器

本文训练了一个单独的模块，以弱监督的方式突出显示与给定问题相关的表格单元格。由于没有表QA数据集包含对回答给定问题有用的表单元格的注释，因此本文采用两阶段方法，首先训练解析语句生成器来生成描述与给定问题相关的行和列的标准的自然语言文本。随后，本文训练另一个模型，该模型将解析语句和表作为输入，以识别匹配标准的单元格。

解析语句生成器：由预训练的Flan T5-xl组成，经过微调，以将问题和表作为输入来生成解析语句textparse。该语句描述了说明哪些行和列对导出答案有用的标准。为了引导PSG的训练，本文用解析语句手动注释了约300个问题表对。本文选取了不同的问题进行注释。对采样问题及其表进行手动注释，并使用解析语句对PSG进行微调。然后使用训练好的PSG模型为实验研究的数据集中的任何问题表对生成解析语句。

基于解析语句的单元格高亮显示:为了根据解析语句textparse中描述的条件识别表单元格，本文需要一种将语句映射到相应单元格的方法。为此，本文使用ToTTo数据集，该数据集包含(表，突出显示的单元格坐标列表)对的样本。每一对都附有一个文本描述，总结了相应单元格列表的内容。本文在ToTTo数据集上微调了一个由Flan T5-xl组成的单元格高亮模型cell HighlighterLLM，其中表格和摘要文本作为输入，以生成相应高亮单元格的内容。一旦训练了Cell HighlighterLLM，本文将提供表和文本解析作为输入，以识别和生成相应单元格的内容。

4. 实验

4.1 CABINET在TABLE-Q上的表现

本文考虑了三种不同类型的方法——(i)专门针对表理解进行llm预训练，并对QA进行微调，如TAPEX、ReasTAP和OmniTab ;(ii)微调llm(仅对文本进行预训练)，如T53b和Flan T5-xl;(iii) StructGPT等llm的少量或零提示，以及使用此类llm进行上下文学习的方法，如LEVER、BINDER和DATER。

表1 WikiTQ上的性能比较

表2 FeTaQA上的性能比较

表3 WikiSQL上的性能比较

表1-3展示了不同数据集上各种方法的性能，我们可以观察到，CABINET的准确率为超过了这三个类别中表现最好的基线，并建立了新的技术水平。

4.2 CABINE对噪声和不相关信息的鲁棒性

基于Transformers的模型在表格理解方面取得了显著成功，但它们对表格数据的噪声和扰动很敏感。在执行表QA时，本文检查了CABINET对噪声的鲁棒性和敏感性。我们通过干扰测试分割中的表来引入噪声，并报告性能下降的相对百分比。

本文执行四种类型的扰动:1)行添加:通过添加包含相同列数的另一个表的行，将噪声插入到表中;2)行置换:行随机置换排序;3)列排列:随机排列列的顺序;(4)单元格替换:用其他表格中的内容替换某些单元格的内容。分别执行每个扰动得到结果。

图2 相对性能下降与扰动(RA -行添加，RP -行排列，CP -列排列，CR -单元格替换)

4.3 表大小对性能的影响

本文将表格中的单元格数量视为其大小的代表，并根据单元格数量将三个数据集中的所有问题分为六类，并将CABINET的性能与特定于数据集的最佳性能基线进行比较。我们注意到，对于所有数据集，虽然模型性能随着表大小的增加而下降，但CABINET在所有表大小类别中始终显著优于基线方法。此外，对于较大的表，差异变得更加明显。例如，对于FeTaQA中最大的表格，CABINET的S-BLEU得分是OmniTab的两倍(36比18)。同样，对于其他两个数据集，与基线相比，CABINET在最大的表(> 500个单元格)上实现了显著的高性能——精度为38，而OmniTab在WikiTQ上的精度为28,ReasTAP在WikiSQL上的精度为79，而ReasTAP在WikiSQL上的精度为70。这些经验观察为CABINET识别相关内容的能力提供了进一步的证据，使QA LLM对表大小相对健壮。

图3 性能随表大小的变化

5. 总结

本文研究了在表格上问答的问题，并专注于识别表格的相关部分来推导答案。通常，只需要表格数据的一小部分就可以回答这个问题，并且由于llm容易受到噪声的影响，多余的信息会导致次优性能。在大型表的情况下，这个问题会进一步恶化。本文提出的框架CABINET解决了这个问题，方法是根据与问题的相关性对表内容进行权衡，确定相关的行和列，并突出显示相关单元格的内容。CABINET在三个常用的具有挑战性的基准上建立了新的SoTA，优于特定于表的模型，以及使用更大的GPT-3比例模型的上下文学习方法。本文的经验表明，CABINET对噪声具有更强的鲁棒性，并且可以很好地推广到更大的表，这表明它在减轻噪声和克服通常在训练中学习到的表结构偏差方面的有效性。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。