论文阅读:End-to-End Training of Neural Retrievers for Open-Domain Question Answering

论文阅读:End-to-End Training of Neural Retrievers for Open-Domain Question Answering

来源:ACL 2021

下载地址:https://arxiv.org/pdf/2101.00408.pdf

代码地址:https: //github.com/NVIDIA/Megatron-LM

本文主要贡献:

  • 我们证明了我们提出的使用 ICT 对检索器进行无监督预训练的方法,然后进行监督微调,与之前自然问题和 TriviaQA 数据集上的最佳结果相比,前 20 名检索准确度的绝对增益超过 2 个点。
  • 我们表明,当监督数据集较小时,基于掩蔽的显着跨度的检索器预训练更有效。
  • 我们的端到端训练方法在检索准确性方面获得了最新的性能。
  • 我们在答案提取方面取得了具有竞争力的结果,与 REALM (Guu et al., 2020) 和 RAG (Lewis et al., 2020c) 等最近的模型相比,获得了超过 3 分的收益。
  • 我们将端到端训练扩展到大型模型,并显示出持续的性能提升。

Abstract

在这项工作中,我们系统地研究了检索器预训练。 我们首先提出了一种使用逆完形填空任务和掩码显着跨度的无监督预训练方法,然后使用问题-上下文对进行监督微调。探索两种在 OpenQA 模型中对阅读器和检索器组件进行端到端训练的方法,它们在阅读器摄取检索到的文档的方式上有所不同。

Introduction

现阶段大多数OpenQA方法都包含两个阶段。第一阶段,给定一个问题,检索器模块识别最相关的文档,把相关文档排序。第二阶段,将这些相关文档作为输入提供给阅读器模块,阅读器模块会理解这些文档并提取问题的答案,如图一。

在这里插入图片描述

图 1:说明 OpenQA 方法的示例。

然而,没有研究调查在检索任务具有挑战性时使用两种训练方式(有监督和无监督训练)的比较优势,如当证据包含数百万个文档时。目前尚不清楚无监督方法是否可以进一步帮助提高强监督方法的性能,如果可以,在什么条件下。 这项工作的核心重点是系统地研究检索器训练的这些方面。

我们提出了一种统一的方法来训练检索器:无监督预训练,然后是监督微调。 我们还研究了关键的设计选择——例如相关性分数缩放和更长时间的训练——并展示它们的有效性。此外,我们还探索了两种阅读器和检索器组件的端到端监督训练方法。 在第一种方法中,阅读器分别考虑每个检索到的文档,而在第二种方法中,阅读器将所有检索到的文档一起作为输入。

通过端到端的训练,我们在检索准确性和答案提取方面获得了新的最先进的结果,优于以前的最佳模型。

Neural Retriever

Background

给定证据中的文档集合 Z = {z1,…,zm} 和问题 q,检索器的任务是为问题选择相关的文档子集。 为此,检索器根据问题对证据文档进行排序,并输出排名靠前的文档。

检索器模型由两个模块组成:问题编码器(fQ)和上下文编码器(fZ)。这种模型通常被称为双编码器模型。

给定来自 Z 的问题 (q) 和上下文文档 (zi) 的双编码器模型的训练方法:首先,我们计算问题和上下文之间的相关性分数。 我们将相关性分数定义为问题和上下文表示之间的点积

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GwEQt2sH-1649923854801)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8abe94a6-86b4-4a9f-a436-19a99bb5261f/Untitled.png)]

其中 fQ(q) ∈ Rd 和 fZ(z) ∈ Rd 分别表示问题和上下文编码器,其参数化为 φ = [φQ,φZ]。

我们使用 BERT 式Transformer网络对 fQ 和 fZ 进行建模。将序列的第一个标记(即 [CLS] 标记)的隐藏状态视为编码器的输出。 上下文文档 zi 与问题 q 相关的概率计算为

在这里插入图片描述

其中 τ 是缩放因子。

当模型隐藏大小 (d) 很大时,更大的缩放因子有助于更好地优化。我们将此称为相关性分数缩放。 为了训练检索器,我们最大化从上式计算的对数似然。在实践中,由于证据集包含数百万个文档,因此归一化项的计算成本很高。 因此,我们通过使用批处理中的上下文文档作为反例来近似上述方程的分母,这种技术在实践中表现良好(Chen et al., 2020)。

Training

在所有方法中,我们使用 Megatron-LM (Shoeybi et al., 2019) 中实现的 BERT 权重来初始化问题和上下文编码器的参数。

Supervised Training

在有监督环境中,提供人工注释的问题、答案,有时还提供上下文。如果上下文不包括在内,那么一种常见的方法是使用远程监督(Mintz et al., 2009)来获取上下文文档。 具体来说,我们使用 BM25 (Robertson and Zaragoza, 2009) 从包含答案作为上下文的证据中选择排名靠前的文档。
我们还选择了其他不包含答案的排名靠前的文档作为额外的负样本。

Unsupervised Training

Inverse Cloze Task(ICT)

在此设置中,我们不考虑人工注释的问题-上下文对。 相反,检索器以无监督的方式进行训练。 具体来说,从段落中随机采样的句子被视为查询,而其他句子则被视为上下文。

Masked Salient Spans Training

(Guu et al., 2020) 展示了 ICT 初始化检索器可以通过训练目标来进一步改进,在该目标下,读者可以预测被屏蔽的显着跨度,例如以检索到的文档为条件的命名实体。 在这项工作中,我们采用相同的方法。 然而,与将 BERT 用于阅读器的(Guu 等人,2020)不同,我们使用基于 T5 的生成语言模型(Raffel 等人,2020)。

Proposed Approach:Unsupervised Pre-trainind and Supervised Finetunning

为了改进检索器的训练,我们提出了检索器的无监督预训练方法,然后是有监督的微调。 在这种方法中,我们首先使用 ICT 训练或掩蔽显着跨度训练对检索器权重进行预训练。 在预训练之后,我们通过监督训练对检索器进行微调。

End-to-End Retriever and Reader Training

两种监督训练方法,从特定任务的数据中端到端训练阅读器和检索器组件。第一种方法,阅读器分别考虑每个检索到的文档,而第二种方法,阅读器将所有检索到的文档一起作为输入。 这些方法的设计使得在预测以问题为条件的答案时,学习过程可以改善阅读器和检索器。

Background and notation

在端到端训练中,可训练组件由检索器 (φ) 和阅读器 (θ) 参数组成。对于检索器,我们使用双编码器架构并按照之前讨论的方式对其进行训练。我们的阅读器是根据序列到序列建模范式设计的生成模型。具体来说,我们使用预训练的 T5 作为阅读器。 训练过程的输入是问题 (q) 及其答案 (a),两者都是字符串形式。 给定一个问题,检索器首先从证据 (Z) 中获取 k 个相关上下文文档 (K) 为

在这里插入图片描述

然后,阅读器将问题和一个或多个上下文文档(zi)作为输入来预测答案,其可能性定义为
在这里插入图片描述

其中 N 是答案token的数量。 图 2 显示了说明端到端训练过程的框图。

在这里插入图片描述

图 2:检索器和阅读器组件的端到端监督训练的示意图。

Approach 1:Individual Top-k

在这种方法中,首先根据问题和每个检索到的文档计算阅读器的可能性。 边际可能性定义为个体可能性的加权平均值

在这里插入图片描述

其中 p(zi|q,Z, φ) 使用 Eq2 计算。但是,归一化是在 K 而不是 Z 上完成的。最终损失定义为负边际对数似然

在这里插入图片描述

我们注意到 RAG 模型(Lewis 等人,2020c)也提出了类似的方法,但有两个主要区别。 首先是当我们更新检索器的所有参数(查询和上下文编码器),RAG 只更新查询编码器。 第二个是我们使用 T5 模型作为阅读器,而 RAG 使用 BART 模型(Lewis et al., 2020b)。

Approach 2:Joint Top-k

在这种方法中,似然度定义为阅读器基于问题、所有检索到的文档和检索分数的似然度

在这里插入图片描述

由于 T5 阅读器由独立的编码器和解码器模块组成,它提供了自定义编码器输入或输出的灵活性。 我们将每个检索到的文档与问题连接起来,并将它们作为输入提供给编码器,编码器计算它们的隐藏表示。接下来,我们堆叠所有检索到的文档的隐藏表示,解码器在编码器-解码器注意期间共同关注这些表示,从而允许从多个检索到的文档中进行更强大的信息聚合形式。 我们还添加了检索器相似度分数以偏向编码器-解码器的注意力,因为它有助于促进端到端训练并使阅读器能够更加关注相关文档。 编码器-解码器注意期间的交互分数计算为

在这里插入图片描述

其中 Q 是从解码器的输入计算的查询向量,K 是从编码器的输出计算的关键向量,λ 是可训练的参数。

Experimental Setup

OpenQA Datasets:Neural Questions(NQ),TriviaQA,Evidence

我们使用两个广泛使用的 QA 数据集进行实验,其详细信息如下所示,其统计数据如表 1 所示。

在这里插入图片描述

表 1:OpenQA 数据集统计。 训练集用于端到端训练,而过滤后的版本用于检索器训练。 过滤后的集合忽略那些从证据中检索到的文档与真实文档不一致的示例。

Model Details

我们使用两种不同尺寸的模型,base 和 large,进行实验。 base配置由 12 层、768 维隐藏大小和 12 个注意力头组成。 BERT-base 包含 110M 参数,而 T5-base 包含 220M 参数。 large配置由 24 层、1024 维隐藏大小和 16 个注意力头组成。BERT-large 包含 330M 参数,而 T5-large 包含 770M 参数。

Results:Retriever Training

我们比较了训练检索器的不同方法,使用 top-k 度量 (k ∈ {1, 5, 20, 100}) 评估检索准确性。

Effect of Relevance Score Scaling,Longer Training,and Hard Negatives

我们探索了检索器监督训练的最佳训练设置。为此,我们从流行的 DPR 模型的训练设置开始,对 NQ 数据集进行了一系列实验,然后逐步改进它。 DPR 使用 BERT 进行初始化,训练 40 个 epoch,比例因子为 1,并利用检索器中的 [CLS] 令牌嵌入。 我们使用此设置的结果如表 2 所示。然后我们观察到,结合相关性分数缩放和更长的训练直到 80 个 epoch 有助于将 top-5 和 top-20 的准确度提高 1.5-2 个点。 这些结果也表明原始 DPR 模型训练不足且未完全优化。

在这里插入图片描述

表 2:在 NQ 测试集上评估时,不同因素对检索器监督训练的影响。

除了分数缩放之外,我们还为每个问题-上下文对增加了 1 个额外的硬负样本(类似于 DPR),并训练模型 80 个 epoch。 我们的结果与 DPR 的结果同步,在性能上获得了显着的额外收益。 这些发现强调了相关性分数缩放、更长的训练以及包含一个难的反例对于提高监督检索器的准确性至关重要。 这些有监督的训练结果可以被认为是一个非常强大的baseline。 因此,我们在后续实验中使用这些设置。

Effect of Retriever Initialization

零样本检索器在其权重使用 BERT 或 ICT 或掩码显着跨度预训练初始化时的性能(表 3)。

在这里插入图片描述

表 3:在 NQ 和 TriviaQA 测试集上评估时,无监督预训练对检索准确性的影响。

无监督语言模型在信息检索任务中表现不佳(Lee et al., 2019),显然,BERT 也导致检索准确性不佳。 我们注意到 ICT 初始化在提供非平凡的零样本精度方面非常有效,通过掩蔽显着跨度训练进一步提高了 8 个点以上。两种无监督方法都证明了它们几乎可以从头开始有效地引导检索器。

我们观察到,我们提出的使用 ICT 和掩蔽显着跨度进行预训练的方法比已经很强大的监督训练结果提供了 2-3 个点的绝对改进,并且两个数据集的增益是一致的。这些结果突出表明,即使在使用数千个标记示例对检索器进行微调之后,它也不会导致检索器在 ICT 和掩蔽显着跨度预训练期间学习到的判别属性的灾难性遗忘。另一个优点是,在无监督的情况下,可以利用大型文本集合来预训练检索器,这与依赖于人工注释问题-上下文对的可用性的数据增强方法相比具有相当大的优势。 此外,当将 ICT 与掩蔽的显着跨度初始化进行比较时,我们注意到它们的准确度增益大致相似。

Effect of Amount of Training Data

我们研究了当检索器使用 BERT、ICT 或掩码显着跨度进行预训练并且监督训练数据量不同时对准确性的影响。 我们用 NQ 训练数据的 1%、2%、5%、10-50% 训练检索器,并在图 3 中绘制前 20 个准确度。结果表明,在低资源状态下,掩蔽显着跨度预训练是很多的 比 ICT 更有效,持续带来巨大收益。 随着训练数据的比例增加到超过 40% 以实现高资源设置,显着跨度预训练的收益饱和到 ICT 的收益。

在这里插入图片描述

图 3:在 NQ 测试集上评估时,训练数据量对检索准确性的影响。

Effect of End-to-End Training

对于端到端的训练,检索器的权重使用之前最好的 ICT 预训练和监督微调设置进行初始化。 读者检索到的证据文档的数量被视为超参数,并通过开发集上的性能进行选择。从表4的结果中,我们观察到对于Individual Top-k,当只更新查询编码器时,它往往会提高检索精度。 此外,当上下文编码器也更新时,top-5 的检索准确率提高到 75%,比之前的最佳 DPR 检索器提高了 8 个百分点。 更大的模型进一步有助于提高性能,从而产生新的最先进的结果。

在这里插入图片描述

表 4:使用问答对的端到端训练对检索准确性的影响。 Q 和 C 分别表示查询编码器和上下文编码器是否在训练期间更新。

另一方面,在 Joint Top-k 中,更新查询编码器只会提高 top-1 分数,但并不能真正为更高的 top-k 带来太多准确度提升。 我们也没有更新 Joint Top-k 的上下文编码器,因为它在我们的初始实验中没有带来改进。

这些结果表明,当检索器已经很好地初始化时,Individual Top-k 方法的目标函数被设计为显着提高了检索精度,而 Joint Top-k 方法没有带来改进。

Intuition for Retriever Score Scaling

为了研究 τ 对检索精度的影响,我们对 NQ 检索任务进行了不同 τ 值的消融研究,其结果如表 5 所示。

在这里插入图片描述

表 5:在 NQ 测试集上评估时,分数比例因子 (τ) 对检索准确度的影响。 第一列表示乘以根号d以获得 τ 的倍数 (m),即公式 2 中的 τ = m × 根号d。

Results:Answer Extraction

为了训练答案提取模型,检索器权重使用 ICT 预训练和监督微调进行初始化,而阅读器使用预训练的 T5 权重进行初始化。 读者检索到的证据文档的数量在开发集上进行了调整。 使用传统的精确匹配 (EM) 指标报告结果。

Individual Top-k Approach

我们将表 6 中的结果与 OpenQA 中最近的相关方法进行了比较。 对于 NQ 的基本配置,我们的模型优于 REALM 和 DPR 超过 4 个点。 对于大型配置,我们与 RAG 模型 (Lewis et al., 2020c) 进行比较,在该模型中,我们的方法在 NQ 上的表现优于它 3.5+ 点,在 TriviaQA 上优于 2.8 点。 我们改进的结果是因为更准确的初始检索器、更强大的阅读器以及在训练期间更新查询和上下文编码器。

在这里插入图片描述

表 6:使用 IndividualTop-k 方法的答案提取结果。 base配置和large配置下的分组基于阅读器模型的大小。

更新上下文编码器可以改善base配置和large配置的结果,如图四。 非常令人惊讶的是,我们还观察到,Individual Top-k 方法的性能对 top-k 文档的数量很敏感,并且还会随着 top-k 文档的增加而降低,。

在这里插入图片描述

图 4:增加 top-k 文档对 Individual Top-k 方法答案生成的影响。

Joint Top-k Approach

我们将我们的结果与最近的 Fusion-inDecoder (FiD) 方法(Izacard 和 Grave,2020)进行比较,该方法也使用联合编码器-解码器注意。它由作为检索器的 DPR 和作为读取器的 T5 组成,它们使用它们的开源权重进行初始化。 然而,与我们的方法不同,FiD 只是微调了阅读器的权重。 我们在表 7 中的结果表明,对于base配置,Joint Topk 在 NQ 上的表现优于 FiD 模型 1 个百分点,突出了端到端训练的重要性。对于large配置,我们在 TriviaQA 上获得了 0.7 分的增益。

在这里插入图片描述

表 7:使用联合 Topk 方法提取答案的结果。

我们在图 5 中的分析表明,EM 分数随着检索到的文档的增多而提高。 这突出表明,与个人 Top-k 相比,联合 Top-k 更好地聚合了检索到的文档中包含的信息。该图还说明了相似性丰富的注意力对base配置的答案提取的影响。 对于 top-k=5、10 和 25 的值,使用检索相似性丰富的编码器-解码器注意力,我们始终观察到 0.8-1 EM 点的增益(比较图 5 中的橙色图和蓝色图),而 top-k=50 时增益较小。这表明随着检索到的文档越多,端到端训练的效用往往会降低,从而解释了在表 4 中观察到的联合 Top-k 检索性能增益较低的原因。

在这里插入图片描述

图 5:增加 top-k 文档对联合 Top-k 方法的答案生成的影响。

Conclusion

我们提出了一些方法来提高 OpenQA 任务的双编码器模型的检索精度。 我们首先对使用 ICT 和掩蔽的显着跨度任务进行预训练的重要性进行系统调查,以对检索器进行监督训练。 然后,我们提出了两种在 OpenQA 中对阅读器和检索器组件进行端到端训练的方法。 在一种方法中,读者单独考虑每个检索到的文档,而在另一种方法中,读者联合考虑所有检索到的文档。 总体而言,这些方法有助于在检索和答案提取方面实现最先进的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值