TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection论文详解

TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection

论文地址:https://paperswithcode.com/paper/tanda-transfer-and-adapt-pre-trained
这篇论文提出了一种预训练transformer模型的迁移和自适应的算法,并且提出了ASNQ数据集。

1.介绍

一般的迁移学习都是将预训练模型在目标问题数据集上进行一次微调即可,而这篇文章提出了另外一种方法,简单来讲就是将微调的过程分为两个步骤:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.第一步将预训练模型在一个数据量大且高质量的数据集上微调,使之迁移到某个问题的通用任务中,论文中是AS2任务(Answer Sentence Selection),也就是问答
2.第二步将模型再在特定领域问题数据集上在微调,使之自适应特定类型的领域

这里有点绕,我解释一下:
1.将预训练模型在一个数据量大且高质量的数据集上微调,使之迁移到某个问题的通用任务中。论文首先在ASNQ数据集对预训练模型进行第一次微调(ASNQ数据集是论文作者自己构建的一个通用的问答数据集,涉及很多领域,比如银行、医学、常识问题等),将模型迁移(transfer)到通用问答任务中
2.将模型再在特定领域问题数据集上在微调,使之自适应特定类型的问答领域。之后论文将模型再在目标数据集上微调,使模型自适应(adapt)特定领域的问答,比如银行业的问答

这样做的好处论文里说了几点:
1.相比于一次微调的方法,进行两次微调可以提高模型的稳定性
2.目标数据集的数据量很小的时候模型效果也可以很好。这就很好的解决了目标数据集数据量不够的问题,对于特定领域的问答来说,很难搜集到大量的问答数据,如果直接用小数据集迁移学习预训练的transformer模型的话,由于transformer模型的参数量很大,会导致训练过程不稳定不易收敛
在这里插入图片描述
3.对噪声的鲁棒性很好,即使使用有噪声的目标数据集,模型效果也可以很好
在这里插入图片描述
4.除了问答,TANDA也可以用在其他NLP任务中
在这里插入图片描述

2.ASNQ数据集

ASNQ数据集是作者为了第一次微调构建的大型通用的问答数据集,这个数据集来源于 Google Natural Questions (NQ)数据集,NQ数据集是为阅读理解任务(MR)构建的大型数据集。
在这里插入图片描述

3. 效果

作者在不同数据集上对比了FT(一次微调)和TANDA的效果,模型使用了四种,用MAP和MRR作为评价指标
在这里插入图片描述
最终的效果如下:
在这里插入图片描述
在这里插入图片描述
稳定性:
在这里插入图片描述
对噪声的鲁棒性:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值