Back-Training: 用于问题生成和段落检索的全新领域自适应方法

本文介绍了一种名为back-training的领域自适应方法,它与传统的self-training相反,通过生成的输入数据来获取真实输出,从而在目标域上训练出更优的问答模型。研究表明,back-training在问题生成和段落检索任务上优于self-training,特别是在无监督领域适应中表现出色。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | Maple小七

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

本文提出了一种新的领域自适应方法:back-training,传统的 self-training 生成的训练数据的输入是真实的,而输出是生成的,back-training 生成的训练数据的输入是生成的,而输出是真实的,作者通过实验证明了相比于 self-training,back-training 生成的训练数据可以在目标域上训练出性能更好的模型。

论文标题:

Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval

论文链接:

https://arxiv.org/abs/2104.08801

代码链接:

https://github.com/McGill-NLP/MLQuestions

引言

构建高质量的垂直领域问答模型往往需要大量的人工标注数据,然而垂直领域的问答对的标注成本通常是非常高的,常常需要标注人员具有一定的领域知识,因此如何借助迁移学习(Transfer Learning)或领域自适应(Domain adaption)的方法来减少甚至消除人工标注成本,在目标域上训练出泛化能力更好的模型,是一个受到了广泛关注的问题。

一种最常用的领域自适应方法是 self-training,其基本思路很简单,就是先在标注数据丰富的源域(source domain)上训练可以为目标域(target domain)生成标注数据的模型,然后用该模型为目标域生成训练数据(synthetic data),最后在这些生成的训练数据上训练我们想要的模型。为了提升生成数据的质量,通常还会加上一致性检查(consistency check)和迭代优化(iterative refinement)的训练技巧。

Back-training

然而迁移学习的效果往往差强人意,self-training 生成的数据并不一定能够在目标域上训练出足够优秀的模型,本文提出了一种新的领域自适应方法:back-training,该方法的思想和机器翻译中的 back-translation 很相似。

相比于 self-training,back-training 对目标域的无监督数据是有要求的,具体来说,假设我们希望在目标域上训练出一个问题生成模型 ,那么 self-training 只要求目标域数据包含段落(paragraphs) 就行了,而 back-training 要求目标域数据不仅要有段落 ,还要有问题 ,但段落和问题并不需要对齐。

这样的假设在实际应用中是很常见的,在一些垂直领域上,段落和问题都相对容易获得,但对齐的段落和问题却很难获得,如果想要人工标注对齐的话,通常需要很强的领域知识。

本文重点关注问题生成(question generation)和段落检索(passage retrieval) 任务,设源域数据集为 ,目标域数据集为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值