Contrastive Domain Adaptation for Question Answering using Limited Text Corpora
基于有限文本语料库的问答对比领域自适应
Abstract
问题生成在新领域定制QA系统方面取得了不错的成果,这些方法避免了来自新领域的人工标注的训练数据的需要,而是生成用于训练的合成问答对(synthetic question-answer pairs)。本文提出了一种新的领域自适应框架,称为用于QA的对比领域自适应(CAQA),具体来说,CAQA结合了问题生成和领域不变学习技术,在文本语料库有限的情况下回答域外问题。
1 Introduction
抽取式阅读理解的一个挑战是训练数据(源域)和测试数据(目标域)之间的分布变化,如果目标域出现的域外样本偏离了QA系统的训练语料库,那么QA系统的准确性一定会下降。解决上述问题的方法是使用问题生成的模型从目标领域的语料库生成合成数据,然后在训练期间使用该合成数据。将合成数据作为来自目标领域的替代物,从而可以用来自源域的数据和合成数据来训练QA系统,有助于在域外数据分布上取得更好的结果,这种方法的概述如图1所示:
然而大量的合成数据需要密集的计算资源,对于目标领域大小有限的情况生成合成数据就设置了障碍,本文借鉴了计算机视觉中的一种领域适应方法解决以上问题,即表示差异减少。通过设计一个自适应loss或对抗训练方法来学习领域不变特征,以便模型能够将学习到的知识从源域转移到目标域。
本文开发了一个在有限文本语料库的问答环境下回答域外问题的框架,作者称为对比域外问答适应contrastive domain adaptation for question answering(CAQA)。CAQA结合问题生成和对比领域自适应来学习领域不变特征,从而能够捕获这两个领域,从而将知识转移到目标分布。现有的问题生成中,合成数据仅用于与源数据的联合训练,并没有考虑迁移,因此作者提出一种新的针对QA的对比适应损失。该对比适应损失使用最大平均差异(MMD)来度量源特征和目标特征在表示上的差异。
2 Realated Work
当训练数据(源域)不同于测试期间使用的数据(目标域)时,提取问答系统的性能恶化。使用QA系统适应特定领域的方法可以分为:1) 有监督的方法,人们可以访问来自目标领域的标记数据;2)无监督方法,没有标记的信息是不可访问的。后者是本文关注的重点,其中无监督方法主要基于问题生成技术,其中一个为目标领域生成合成训练数据。
2.1 Qusetion generation(QG)
问题生成是从原始文本数据中生成合成QA对的任务,本文利用生成的问题微调QA系统以适应新的目标领域。
2.2 Unsupervised domain adaptation
计算机视觉领域已经完成了大量关于无监督领域自适应的工作,其中减少了标记的源数据和未标记的目标数据集之间的表示差异。最近主要是基于对抗学习的方法,其中最小化源域和目标域中的特征分布之间的距离,同时最小化标记源域中的误差。与对抗学习不同,对比学习是利用一种特殊的损失,该损失减少了来自同一类别的样本的差异,并增加了来自不同类别的样本的距离,这是通过使用距离度量或三元组loss和聚类技术实现的。最近,对比适应网络contrastive adaptation network(CAN)被证明通过使用最大平均差异来构建一个目标函数来实现最先进的性能。
3 The CAQA Framework: Contrastive Domain Adaptation for QA针对QA的对比性领域适应
3.1 Setup
3.1.1 Input
本文的框架是使用基于分布变化下的QA数据。设 D s \mathcal{D}_s Ds表示源域, D t \mathcal{D}_t Dt表示目标域,其中 D s ≠ D t \mathcal{D}_s \ne \mathcal{D}_t Ds=Dt。输入是通过以下方式给出的:
- Training data from source domain来自源域的训练数据:
- 从源域获得标记数据 X s X_s Xs:
- 其中来自源域的 D s \mathcal{D}_s Ds的每个样本 x s ( i ) ∈ X s x_s^{(i)}\in X_s xs(i)∈Xs由question x s , q ( i ) x_{s,q}^{(i)} xs,q(i)、context x s , c ( i ) x_{s,c}^{(i)} xs,c(i)、answer x s , a ( i ) x_{s,a}^{(i)} xs,a(i)组成的三元组。
- 从源域获得标记数据 X s X_s Xs:
- Target contexts目标上下文:
- 可以访问目标域数据,但是这些数据都是没有标签的,也就是说只能访问上下文,进一步假设目标上下文的数量是有限的
- 设 X t ′ X_t^{ {}'} Xt′表示未标记的目标数据,其中来自目标域 D t \mathcal{D}_t Dt的每个样本 x t ( i ) ∈ X t ′ x_t^{(i)}\in X_t^{ {}'} xt(i)∈Xt′,这个数据仅由上下文 x t , c ( i ) x_{t,c}^{(i)} xt,c(i)组成。
3.1.2 Objective
本文的目标是在回答来自目标域 D t \mathcal{D}_t Dt的问题时最大化QA系统的性能,即最小化来自目标域 D t \mathcal{D}_t D<