论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering

论文阅读:Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering

来源:ACL 2021

下载地址:https://arxiv.org/pdf/2108.02866.pdf

本文主要贡献:

  • 我们提出了一个多模式框架,该框架将混合知识源与用于 ODQA 任务的 Text2SQL 能力相结合。 这是在 ODQA 设置中研究 Text2SQL 的第一项工作。
  • 我们提出了一种生成方法,该方法同时采用文本和表格证据并生成直接答案或 SQL 查询,由上下文自动确定。
  • 实验表明,可解释的 SQL 生成可以有效地回答需要在 ODQA 设置中进行复杂推理的问题。

Abstract

1、以前研究存在问题:当前最先进的开放域问答(ODQA)生成模型专注于从非结构化文本信息中生成直接答案。 然而,大量世界知识存储在结构化数据库中,需要使用 SQL 等查询语言进行访问。查询语言可以回答需要复杂推理的问题,并提供完整的可解释性。

2、本文主要工作:在本文中,我们提出了一个混合框架,该框架将文本和表格证据作为输入,并根据哪种形式可以更好地回答问题来生成直接答案或 SQL 查询。 然后可以在关联的数据库上执行生成的 SQL 查询以获得最终答案。这是第一篇将 Text2SQL 应用于 ODQA 任务的论文。 根据经验,我们证明了在几个 ODQA 数据集上,混合方法始终优于只采用同质输入的baseline模型。在详细的分析中,证明了能够生成结构化 SQL 查询总能带来收益,尤其是对于那些需要复杂推理的问题。

Introduction

定义:开放域问答 (ODQA) 是一项在没有预先指定域的情况下回答事实性问题的任务。

以前的模型:生成模型取得了先进的性能,但是这些方法都有一个共同的途径,首先从维基百科的自由格式文本中检索证据。

问题:然而,大量的世界知识不是以纯文本形式存储,而是存储在结构化数据库中,需要使用 SQL 等查询语言进行访问。

理想的 ODQA 模型应该能够从非结构化文本和结构化表格信息源中检索证据,因为数据库中的表格证据可以更好地回答某些问题。

本文工作:在本文中,我们提出了一个双阅读器解析器 (DUREPA) 框架,该框架可以将文本和表格数据作为输入,并根据上下文生成直接答案或 SQL 查询。总体而言,我们的框架由三个阶段组成:检索、联合排序和双重阅读解析。

具体流程:首先,我们检索文本和表格类型的支持候选,然后是一个联合重新排序器,预测每个支持候选与问题的相关性,最后我们为我们的 reader-parser 使用解码器融合模型(Izacard And Grave,2020),除了问题之外,它还需要所有重新排序的候选人来生成直接答案或 SQL 查询。

Method

混合开放域问答方法主要由三个部分组成:(1)检索系统; (2) 联合重排序器和 (3) 双 Seq2Seq 模型,该模型使用 fusion-in-decoder (Izacard and Grave, 2020) 生成直接答案或 SQL 查询。

Retrieval

对于混合开放域设置,我们构建了两个独立的搜索索引——一个用于文本输入,另一个用于表格输入。 对于段落,我们将它们分成最多 100 个单词的段落。 对于表格,我们通过连接每行的单元格值将每个表格展平为段落。 如果扁平表超过 100 个单词,我们将其拆分为单独的段落,尊重行边界。 列标题连接到每个表格段落。

给定一个自然语言问题,检索系统使用 BM25 (Robertson et al., 1995) 排序函数分别从文本和表格索引中检索 100 个文本和 100 个表格段落作为支持候选。

在这里插入图片描述

图 1:混合模型的流程。 候选者是从知识源中检索出来的,例如维基百科,包括段落和表格。 然后生成的 Seq2Seq 模型读取问题和所有候选者,并使用波束搜索生成 k 个输出。 每个输出可以是最终答案或中间 SQL 查询。 输出的类型和顺序由模型本身自动确定。

Joint Reranking

重新排序模型的目的是产生一个分数 si 来衡量候选人(非结构化段落或表格)与问题的相关程度。具体来说,reranker 输入是问题、检索到的候选内容及其对应的标题的串联,由图 1 中所示的特殊标记分隔。候选内容可以是非结构化文本或扁平表格。 我们在本文中使用 BERTbase 模型。我们使用以下损失微调 BERT模型:

在这里插入图片描述

Ipos 是从所有相关的 BM25 候选中采样的,而 Ineg 集合是从所有非相关的 BM25 候选中采样的。在训练过程中,对于每个问题,我们对 64 个候选者进行抽样,其中包括 1 个正候选和 63 个负候选,即 |Ipos| = 1 和 |Ineg| = 63。如果 200 个候选人都不相关,我们跳过这个问题。在推理过程中,我们使用混合重排序器为 200 个候选者中的每一个分配一个分数,并选择前 50 个候选者作为下一个模块的输入——阅读器-解析器模型。对于前 50 名候选人,我们根据 reranker 分配的分数从所有候选人的联合池中选择他们。

Dual Reading-Parsing

初始化:双读取器-解析器模型基于 Izacard 和 Grave (2020) 中提出的融合解码器 (FID),并使用预训练的 T5 (Raffel et al., 2020) 模型进行初始化。

阅读器-解析器的整体流程如图 1 所示。每个检索到的候选都由其标题和内容表示,格式如下:

Textual Candidate

我们将每个文本候选表示为段落标题和内容的连接,分别附加特殊标记 [text title] 和 [text content]。

Tabular Candidate

为了将结构化表格表示为段落,我们首先将每个表格展平为以下格式:每个展平表格以完整的标题名称开头,然后是行。最后,表格候选是表标题和内容的连接,被扁平化为一个段落,分别附加特殊标记 [table title] 和 [table content]。 我们使用表 ID 作为标题,以便模型可以将其复制到生成的 SQL 查询中。

Prefix of the Target

在训练期间,我们还根据它是纯文本还是 SQL 查询,将特殊标记 answer: 或 sql: 添加到目标句子中。 对于同时具有文本答案和 SQL 查询注释的问题,我们为每个问题创建两个训练示例。 在推理过程中,生成的输出也会包含这两个特殊的前缀,表示模型生成了哪种输出类型。

Dual Reader-Parser

我们的生成 Seq2Seq 模型具有读取器-解析器对偶性。 在推理过程中,模型读取问题和所有候选,并使用波束搜索产生 k 个输出。 每个输出可以是最终答案或中间 SQL 查询。 根据上下文,输出的类型和顺序由模型本身自动确定。 然后将执行所有生成的 SQL 查询以生成最终答案。 在本文中,我们固定 k = 3,并且总是为每个问题生成三个输出。

Experiments

Datasets

Implementation Details

Retriever and Reranker

我们使用默认设置的 Elasticsearch 7.7 进行 BM25 检索。 使用了一个用预训练的 BERT-base-uncased 模型初始化的 BERT reranker。

Dual Reader and Parser with fusion-in-decoder

我们使用预训练的 T5 模型 (Raffel et al., 2020) 初始化融合解码器。 我们在本文中只探索 T5-base 模型,它有 220M 的参数。

对于 reranker 和 FiD 模型,我们使用 Adam 优化器 (Kingma and Ba, 2014),最大学习率为 10^-4,dropout 率为 10%。学习率线性升温到 10^-4,然后线性退火到零。

我们为 10k 梯度步长训练模型,批量大小为 32,并每 1k 步保存一个检查点。 对于 FiD 模型,当一个问题有多个答案时,我们从列表中随机抽取一个答案。 对于 FiD 模型,在推理过程中,我们使用光束大小为 3 的光束搜索为每个问题生成 3 个答案。

Main Results

我们将开放域 QA 任务的端到端结果与基线方法进行比较,如表 2 所示。

我们根据源证据模态以及模型预测的格式构建具有 5 种不同设置的模型。 具体来说,我们考虑仅具有文本证据或表格证据的单一模态设置以及具有文本和表格证据的混合设置。 对于表格证据,模型要么预测直接答案文本,要么生成结构化 SQL 查询。 请注意,我们还考虑了一个基线模型 FID+,这是一个仅生成直接答案文本但可以同时使用文本和表格证据的 FiD 模型。

在这里插入图片描述

表 2:与最先进的开放域 QA 数据集的比较。FiD(T5-base & T5-large) 来自 (Izacard and Grave, 2020),IR+CR (Iterative Retrieval+Cross-block Reader) 和 FR+CR (Fusion Retrieval+Cross-block Reader) 来自 (Chen 等人,2020a),统一模型来自(Oguz 等人,2020)。 将 DUREPA 与 FID+ 进行比较,我们观察到,即使对于像 SQuAD 和 NQ 这样具有大部分提取性答案的问题,能够生成结构查询也总是有益的。

Analysis

Retrieveal and Reeanking Performance

我们使用 top-k 召回作为我们的评估指标来研究 BM25 检索器和 BERT reranker 的性能。

在训练和推理过程中,对于每个问题,文本和表格段落都使用单个重新排序器联合重新排序。 在 Mix-SQuWiki 数据集上,我们在表 3 中报告了 SQuAD 问题的重新排序结果。为了更好地了解 reranker 的性能,我们分别展示了文本、表格和混合证据的 top-k 召回。

在这里插入图片描述

表 3:召回 SQuAD 问题的前 k 个文本、表格或混合候选。 混合输入的召回率几乎与单个文本或表格输入的最佳召回率相同甚至更好,这意味着重新排序器能够对两种类型的候选者进行联合排名,并为下一个组件——阅读器-解析器提供更好的证据。

Performance of the Reader-Parser

讨论双阅读器-解析器在不同类型问题上的性能。

SQL prediction helps with complex reasoning

在表 4 中,我们比较了 DUREPA 和 FID+ 在 OpenWikiSQL 上的 top-1 EM 执行精度。 如果 DUREPA 生成了一条 SQL,我们执行该 SQL 以获得它的答案预测。 如果真实答案是一个列表(例如,2008 年播出的辛普森一家剧集的名称是什么?),我们使用集合等价来评估准确性。

在大多数设置中,DUREPA 在测试集上的表现都优于 FID+。 我们还根据真实 SQL 查询在不同类别的细分下比较它们的性能。

在这里插入图片描述

表 4:DUREPA 和 FID+ 在 OpenWikiSQL 数据集上的比较。 我们根据真实 SQL 查询在不同类别的细分下比较它们的准确性。 “Direct answers”代表 DUREPA 预测直接答案的问题。DUREPA 在需要复杂推理(例如最高级和计算)的问题上表现出色。

Using hybrid evidence types leads to better performance

表 5 中显示了模型在 Mix-SQuWiki 问题上的表现。

在这里插入图片描述

表 5:各种设置下 Mix-SQuWiki 数据集的详细结果。

What if the questions can be answered by both textual and tabular evidences?

表 6 显示了模型在 WikiSQL-both 数据集上的性能。回想一下,数据集中的所有这些问题都可以通过两种类型的证据来回答。 首先,使用表格证据的 DUREPA 模型比使用文本证据的 FID+ 模型表现得更好。这意味着在 WikiSQL 问题上,使用表格信息可以获得更好的答案。 接下来,当仅使用一种类型的证据时,DUREPA 和 FID+ 模型的表现都比它们的混合模型差得多。 这表明混合模型可以再次确定应该使用哪种证据类型来提供正确的最终答案。

在这里插入图片描述

表 6:WikiSQL 数据集上的模型性能。 这些模型是在 Mix-SQuWiki 训练数据上训练的。

在这里插入图片描述表 7:模型 DUREPA 正确回答但模型 FID+ 错误回答的 SQuWiki 和 OpenWikiSQL 问题示例。

Discussion and Future Work

我们的实验一致表明,提出的框架 DUREPA 在使用混合类型的证据回答问题方面带来了显着改进。 特别是在两种支持证据类型都可以回答的问题上,我们的多模态方法仍然比使用单一类型知识的模型显示出明显的优势,这意味着我们的方法可以找出最相关的证据来回答问题。 我们还证明了双重reader-parser对于 DUREPA 的良好性能至关重要; 生成直接答案和结构化 SQL 查询的能力帮助 DUREPA 在需要复杂推理(如计数或平均)的问题上表现得比 FID+ 和其他基线要好得多。

我们相信我们的方法可以在两个方面进行改进。 首先,我们的总体框架图 1 可以通过更好的检索系统来改进。在混合证据上,还可以使用实体链接模块来链接表格和段落之间的实体(Chen et al., 2020a),并利用结构信息进行更好的多跳推理。其次,正如我们已经证明的那样,具有生成结构化 SQL 查询的能力对于回答需要复杂推理的问题是一个非常强大且必要的功能。鉴于 Text2SQL 数据有限且难以获得此类 SQL 监督,未来两项有趣的工作包括(1)更有效地获取 SQL 注释和(2)采用离散 EM(Min 等人,2019)等弱监督方法进行模型训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值