Back-Training: 用于问题生成和段落检索的全新领域自适应方法-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/117677292

本文介绍了一种名为back-training的领域自适应方法，它与传统的self-training相反，通过生成的输入数据来获取真实输出，从而在目标域上训练出更优的问答模型。研究表明，back-training在问题生成和段落检索任务上优于self-training，特别是在无监督领域适应中表现出色。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | Maple小七

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

本文提出了一种新的领域自适应方法：back-training，传统的 self-training 生成的训练数据的输入是真实的，而输出是生成的，back-training 生成的训练数据的输入是生成的，而输出是真实的，作者通过实验证明了相比于 self-training，back-training 生成的训练数据可以在目标域上训练出性能更好的模型。

论文标题：

Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval

论文链接：

https://arxiv.org/abs/2104.08801

代码链接：

https://github.com/McGill-NLP/MLQuestions

引言

构建高质量的垂直领域问答模型往往需要大量的人工标注数据，然而垂直领域的问答对的标注成本通常是非常高的，常常需要标注人员具有一定的领域知识，因此如何借助迁移学习（Transfer Learning）或领域自适应（Domain adaption）的方法来减少甚至消除人工标注成本，在目标域上训练出泛化能力更好的模型，是一个受到了广泛关注的问题。

一种最常用的领域自适应方法是 self-training，其基本思路很简单，就是先在标注数据丰富的源域（source domain）上训练可以为目标域（target domain）生成标注数据的模型，然后用该模型为目标域生成训练数据（synthetic data），最后在这些生成的训练数据上训练我们想要的模型。为了提升生成数据的质量，通常还会加上一致性检查（consistency check）和迭代优化（iterative refinement）的训练技巧。

Back-training

然而迁移学习的效果往往差强人意，self-training 生成的数据并不一定能够在目标域上训练出足够优秀的模型，本文提出了一种新的领域自适应方法：back-training，该方法的思想和机器翻译中的 back-translation 很相似。

相比于 self-training，back-training 对目标域的无监督数据是有要求的，具体来说，假设我们希望在目标域上训练出一个问题生成模型，那么 self-training 只要求目标域数据包含段落（paragraphs）就行了，而 back-training 要求目标域数据不仅要有段落，还要有问题，但段落和问题并不需要对齐。