论文阅读:Answering Ambiguous Questions through Generative Evidence Fusion and Round-Trip Prediction

论文阅读:Answering Ambiguous Questions through Generative Evidence Fusion and Round-Trip Prediction

来源:ACL 2021

下载地址:https://yifan-gao.github.io/data/acl21.pdf

本文主要贡献:

  • 我们提出了一种证据聚合方法,该方法可以有效地使用大量段落来揭示对模棱两可问题的更多候选解释。
  • 我们提出了一个标记删除预训练任务,以减少预训练和微调问题消歧之间的不匹配。
    基于插入的加权损失有助于捕获与答案相关的约束。
  • 我们提出了一种往返预测方法来查找在第一次预测过程中遗漏的更多解释,我们使用基于条件概率的过滤方法进一步改进。

Abstract

在开放域问答中,系统需要找到问题的可能解释,并预测一个或多个似是而非的答案。 当找到多个似是而非的答案时,系统应为每个答案重写问题以解决歧义。 在本文中,我们提出了一个模型,该模型聚合和组合来自多个段落的证据,以自适应地预测单个答案或一组问题-答案对来解决模棱两可的问题。此外,我们提出了一种新颖的往返预测方法,以迭代地生成我们的模型在第一遍中未能找到的额外解释,然后验证并过滤掉不正确的问答对,以得到最终的消歧输出。

Introduction

开放域问答来说,模型的答案可能是不确定的,如图一:问题“在一场 NBA 比赛中得分最多是多少?” 是模棱两可的,因为这个问题的得分可以解释为一场比赛的综合得分(Q1A1)、单个团队的得分(Q2A2)或单个球员的得分(Q3A3)。 因此,当问题有多种解释时,系统需要自适应地预测单个答案或一组同样合理的答案。因此,当问题有多种解释时,系统需要自适应地预测单个答案或一组同样合理的答案。 当预测出一组多个答案时,还应明确重写导致每个答案的问题,以澄清每个解释。

在这里插入图片描述

图 1:来自 AMBIGQA (Min et al., 2020) 数据集的示例。 提示问题是从谷歌搜索查询中收集的,在阅读维基百科时有三种解释。 消歧 QA Pairs 是一整套可接受的答案,与提示问题的消歧重写配对。

我们提出了 REFUEL,即通过带有检索的 gEneration 进行的往返证据融合,这是一个用于回答模棱两可的开放域问题的新框架。为了确保广泛覆盖问题的相关信息,REFUEL 通过使用 Fusionin-Decoder(Izacard 和 Grave,2020)读取的段落(我们的实验中为 100 个)比 SPANSEQGEN(以前的一项工作) 多 12 倍,后者在编码器中单独处理每个段落,然后融合它们的编码到解码器中。对于问题消歧子任务,我们提出了一个标记删除预训练任务,通过随机删除每个问题的信息跨度,将 NQ-OPEN 转换为“模糊”的 QA 设置。 因此,预训练和微调任务很好地对齐。此外,我们添加了一个基于插入的加权损失来强调消歧问题中新插入的标记,这有助于模型学习解决歧义。 最后,我们提出了一种往返预测方法,以找到 REFUEL 在第一遍中无法预测的其他解释。我们不断地将生成的问题输入 REFUEL,直到我们的模型没有预测到新的答案。 虽然这种往返预测可以提高答案的召回率,但我们通过使用答案生成模型估计的答案的条件概率对预测的 QA 对进行过滤来改进预测的 QA 对的质量

REFUEL

REFUEL 通过图 2 所示的三步流程回答问题:

  • Passage Retrieval & Reranking 模块从整个 Wikipedia 语料库中检索与问题相关的段落。 然后检索到的段落被进一步重新排序。
  • 将重新排序的段落和提示问题作为输入,我们的单通道 QA 对生成模型进行第一次预测,以预测单个答案或一组明确的 QA 对。
  • 我们提出的往返预测可以找到更多在第一次预测过程中遗漏的解释,我们使用基于条件概率的过滤方法进一步改进。

在这里插入图片描述

图 2:REFUEL 的整体管道。 REFUEL 首先检索与问题相关的段落。 然后它通过答案预测 (AP) 模块和问题消歧 (QP) 模块生成首次通过的 QA 对。 最后,生成的消歧问题 Qd 被进一步作为我们管道的输入,以找到更多解释(往返预测)。 如果生成的问题 Qd 仍然有多种解释,则新预测的答案将收到自己的问题。

Passage Retrieval & Reranking

我们使用密集通道检索器 (DPR) (Karpukhin et al., 2020) 进行检索。 首先,我们将所有 Wikipedia 页面拆分为 100 个标记的段落,总共有 2400 万个段落。 然后 DPR 将所有段落映射成 d 维向量,计算问题的表示,并检索向量最接近问题向量的 N 个段落(本文N=1000)。

在检索 N 个提示问题的段落后,我们微调 BERT (Devlin et al., 2019) 以重新排列这些段落。 以问题和每个段落的连接作为输入,reranker 允许提示问题和段落之间的token级交叉注意。 然后通过将输入序列的 [CLS] 向量放入线性层来导出相关性分数。 重新排序后,QA 对生成模型将前 K 个段落作为输入(本文K=100)。

Single Pass QA Pair Generation

单通道 QA 对生成步骤包括一个答案预测模块和一个问题消歧模块。首先,以重新排序的段落和提示问题Qp为输入,答案预测模块生成一个或多个似是而非的答案A1…Am。 如果找到多个似是而非的答案,则提示问题被视为有歧义的,以便问题消歧模块为每个预测答案 Ai 生成一个消歧问题 Qdi

Round-Trip Prediction

在回答模棱两可的问题时,可能很难在第一轮预测中找到所有可能的解释,因此,我们提出了往返预测,其中包括往返生成步骤和语言模型验证步骤。

Round-Trip Generation

保持相同的检索段落,我们不断地将生成的消歧问题输入到答案预测模块中,以检查是否生成了任何新答案,并生成相应的消歧问题,直到没有新的预测答案。

Language Model Verification

通过 Round-Trip Generation,我们从模棱两可的提示问题中生成了一堆 QA 对,但其中一些是不正确的。LM Verification 是一种基于条件概率的方法,可以柔和地过滤掉 QA 对。 在“LM 验证”中,我们首先使用来自 AMBIGQA 的目标消歧 QA 对训练条件语言模型。 条件语言模型被训练来估计给定目标消歧问题的答案的可能性。 训练完成后,它用于对 REFUEL 生成的 QA 对 (q,a) 进行评分,他代表给定问题 q 和段落的答案 a 的可能性,

在这里插入图片描述

其中 Na 是生成答案的长度。最后,我们根据 LM 分数重新排列所有预测的 QA 对,并根据阈值 Th = 6.1(可调整) 丢弃 QA 对。

Single Pass QA Pair Generation Details

Answer Prediction

为了确保广泛覆盖检索和重新排序的段落,我们的答案预测模块使用了 Fusionin-Decoder 方法(Izacard 和 Grave,2020),它允许我们扩展处理的段落数量。如图 3 所示,我们基于 BART 的答案预测模块 BARTap 独立地对问题和每个段落的连接进行编码。然后将所有编码的token级表示连接成一个序列,BARTap 解码器对所有段落执行注意力以聚合和组合证据。最后,BARTap 解码器逐个token生成一系列似是而非的答案,由 [SEP] 分隔。 鉴于 AMBIGQA 是一个只有 10k 训练样本的小型数据集,我们首先在 NQ-OPEN 上预训练 BARTap 以预测单个答案,然后在 AMBIGQA 上对其进行微调以预测一个或多个答案。

Question Disambiguation

如果预测到多个答案,则激活问题消歧模块以生成对每个预测答案的问题的消歧重写。因为我们不知道哪个输入段落是得出预测答案的关键证据,所以问题消歧模块将答案预测阶段的相同段落作为输入。与答案预测模块 BARTap 类似,我们的问题消歧模块 BARTqd 以相同的方式处理输入,除了 BARTqd 编码器在输入中额外从 BARTap获取预测答案 Ai(如图 3 所示)。

在这里插入图片描述

Token-Deletion Pre-Training

与答案预测模块的训练方案类似,我们也希望利用大规模 NQ-OPEN 数据进行预训练。 一种直接的方法是在 NQ-OPEN 上训练一个问题生成模型,该模型在给定段落和答案的情况下生成问题,然后根据提示的问题、答案和段落对其进行微调,以在 AMBIGQA 上进行问题消歧。 然而,在问题生成预训练任务中没有输入问题来消除歧义,这导致预训练和微调之间的不匹配。 消融研究表明,这种预训练方式对消歧几乎没有帮助。

为了减少预训练和微调之间的不匹配问题,我们提出了一个 Token-Deletion 预训练任务。 这个想法是在预训练中构建合成的模棱两可的问题,以减少不匹配。 给定一个来自 NQ-OPEN 的问题 Q,我们从中随机删除一个信息跨度,从而产生一个部分问题 Qs。 这个部分问题旨在模拟微调阶段的模棱两可问题Qp。 那么Token-Deletion预训练的目标就是从部分问题Qs、答案和段落中恢复出完整的问题Q。 这样,Token-Deletion预训练与微调阶段对齐。

问题通常通过添加新的约束来重写,包括事件/实体引用、属性、答案类型等。例如,图 1 中的消歧问题 Q1 在模棱两可的提示问题之后插入“由一个队伍”。 因此,我们将信息跨度定义为至少包含以下词性标签之一的跨度:‘ADJ’、‘NOUN’、‘NUM’、‘PROPN’、‘SYM’、‘VERB’。 跨度的长度在[1,5]。

Insertion-based Weighted Loss

由于消歧问题是对歧义提示问题的小修改,因此可以直接从输入中复制大多数标记。在这里,我们引入了基于插入的加权损失,以更加强调消歧问题的新添加标记,这可能是消除问题歧义的关键。 给定提示问题 Qp,我们从消歧问题 Qd 中找到新插入的标记Qd:{Qin}。 微调 BARTqd 的最终损失是所有问题标记的原始负对数似然损失与增加插入标记的可能性权重的项的组合:

在这里插入图片描述

其中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lZPghEa8-1649844682993)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/61ab382d-c833-4a01-b5ff-2543e08e84a4/Untitled.png)]

是消歧问题中的标记数,λ = 3:5 是在 dev 上调整的超参数集合。

Experiments

Experimental Setup

Dataset:AMBIGQA 数据集(Min et al., 2020),NQ-OPEN 和 TriviaQA (Joshi et al., 2017)

在这里插入图片描述

表 1:dev. 和 AMBIGQA 的隐藏测试集。 “REFUEL w/o RTP”是不使用往返预测的单通道预测模型。 我们还展示了一个组合指标“Comb.” = F1ans (all) + F1EDIT-F1 用于在官方排行榜上对模型进行排名。

Experimental Results

如表1所示。即使没有往返预测,REFUEL (w/o RTP) 在答案预测子任务和问题消歧子任务上都大大优于 SPANSEQGEN。 此外,往返预测确实通过找到更多更好的 QA 对来进一步提高性能,每个问题从 1.55 到 1.72 对。

在这里插入图片描述

表 2: 将 AMBIGQA 的结果设置为检索/重新排序 (N) 和 QA 输入 (K) 段落数的函数。 #QAs:每个提示问题的预测 QA 对的平均数量。 *:我们复制的结果。

除了往返预测,REFUEL 在输入段落方面比 SPANSEQGEN 有两个优势:(1)我们检索 top N=1000 个段落(而不是 SPANSEQGEN 中的 100 个)以在前 100 个段落中获得更高的答案召回率(从 86.2 提高到 89.7)。 (2) REFUEL 取 K=100 个输入段落,而 SPANSEQGEN 最多取 1024 个子词(K≈8)。 为了建立可控和公平的比较,我们删除了 REFUEL 的往返预测部分,并使用 SPANSEQGEN 中使用的相同输入通道(N=100,K=8)提供 REFUEL(无 RTP)。 结果如表2所示。我们发现(1)在相同的通道数下,REFUEL(w/o RTP)(N=100,K=8)仍然优于SPANSEQGEN,生成更多更好的QA对; (2) REFUEL (w/o RTP) 受益于增加检索阶段的答案召回率 (N = 100 ! 1000),以及允许更多的输入段落 (K = 8 ! 100)。
在这里插入图片描述

表 3:NQ-OPEN 和 TriviaQA 测试集的结果。RTP:往返预测。 NFT:没有微调。ORQA(Lee 等人,2019)、HardEM(Min 等人,2019)、RAG(Lewis 等人,2020b)。

Effect Of Round-Trip Prediction

我们将我们提出的往返预测(往返预测 = 往返生成 + LM 验证)与几种替代方法进行比较,并研究其对 SPANSEQGEN 和 DPR Reader 等其他模型的泛化能力。 结果如表 4 所示。

在这里插入图片描述

Round-Trip Generation Only

我们通过只进行到 REFUEL 的往返生成来调查验证过程的必要性。 结果表明,Round-Trip Generation 可以多生成 33.5% 的 QA 对,但较低的 F1ans(全部)表明,当提示问题不模棱两可时,这种策略可能会过度生成 QA 对。 因此,验证过程对于修剪一些不正确的 QA 是必要的。

Ablations On Question Disambiguation

在这里插入图片描述

表 6:针对开发人员的问题消歧子任务 REFUEL 的消融研究。 QDF:问题消歧微调,QGP:问题生成预训练,TDP:令牌删除预训练。

表 6 将我们的问题消歧模型与提示基线和几个消融进行了比较。 提示基线直接将提示问题作为消歧预测,因此其 F1EDIT-F1 为零。 但是,提示基线的 F1BLEU 分数高于 REFUEL。 这表明 F1EDIT-F1 比 F1BLEU 更好地捕获了问题消歧的有效性。

Case Study

图 4 提供了由众包工作人员、REFUEL (w/o RTP) 和 REFUEL 生成的示例问答对。 注释器从提示问题中找到三种解释,而我们的单通道模型 REFUEL (w/o RTP) 总共找到四种解释 (QA1-4)。 虽然我们的模型预测的 QA2 没有包含在参考文献中,但它确实是对提示问题的正确解释。 此外,往返预测方法找到了模型未能在第一代传递中预测的两个正确解释(QA5、QA6)。

在这里插入图片描述

图 4:由 REFUEL 生成的预测,无往返预测 (QA1-QA4) 和 REFUEL (QA1-QA6)。

Conclusion

在本文中,我们提出 REFUEL 来回答模棱两可的开放域问题。 REFUEL 是一种生成方法,用于汇总和组合来自多个段落的多轮证据,可以找到更多更好的解释。REFUEL 在 AMBIGQA 上达到了新的最先进水平,并在 NQ-OPEN 和 TriviaQA 上显示出具有竞争力的性能。 提出的往返预测是回答模棱两可的开放域问题的通用方法,它改进了我们的 REFUEL 以及几个baseline模型。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值