©PaperWeekly 原创 · 作者 | Maple小七
学校 | 北京邮电大学硕士生
研究方向 | 自然语言处理
本文提出了一种新的领域自适应方法:back-training,传统的 self-training 生成的训练数据的输入是真实的,而输出是生成的,back-training 生成的训练数据的输入是生成的,而输出是真实的,作者通过实验证明了相比于 self-training,back-training 生成的训练数据可以在目标域上训练出性能更好的模型。
论文标题:
Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval
论文链接:
https://arxiv.org/abs/2104.08801
代码链接:
https://github.com/McGill-NLP/MLQuestions
引言
构建高质量的垂直领域问答模型往往需要大量的人工标注数据,然而垂直领域的问答对的标注成本通常是非常高的,常常需要标注人员具有一定的领域知识,因此如何借助迁移学习(Transfer Learning)或领域自适应(Domain adaption)的方法来减少甚至消除人工标注成本,在目标域上训练出泛化能力更好的模型,是一个受到了广泛关注的问题。
一种最常用的领域自适应方法是 self-training,其基本思路很简单,就是先在标注数据丰富的源域(source domain)上训练可以为目标域(target domain)生成标注数据的模型,然后用该模型为目标域生成训练数据(synthetic data),最后在这些生成的训练数据上训练我们想要的模型。为了提升生成数据的质量,通常还会加上一致性检查(consistency check)和迭代优化(iterative refinement)的训练技巧。
Back-training
然而迁移学习的效果往往差强人意,self-training 生成的数据并不一定能够在目标域上训练出足够优秀的模型,本文提出了一种新的领域自适应方法:back-training,该方法的思想和机器翻译中的 back-translation 很相似。
相比于 self-training,back-training 对目标域的无监督数据是有要求的,具体来说,假设我们希望在目标域上训练出一个问题生成模型 ,那么 self-training 只要求目标域数据包含段落(paragraphs) 就行了,而 back-training 要求目标域数据不仅要有段落 ,还要有问题 ,但段落和问题并不需要对齐。
这样的假设在实际应用中是很常见的,在一些垂直领域上,段落和问题都相对容易获得,但对齐的段落和问题却很难获得,如果想要人工标注对齐的话,通常需要很强的领域知识。
本文重点关注问题生成(question generation)和段落检索(passage retrieval) 任务,设源域数据集为 ,目标域数据集为