TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection
论文地址:https://paperswithcode.com/paper/tanda-transfer-and-adapt-pre-trained
这篇论文提出了一种预训练transformer模型的迁移和自适应的算法,并且提出了ASNQ数据集。
1.介绍
一般的迁移学习都是将预训练模型在目标问题数据集上进行一次微调即可,而这篇文章提出了另外一种方法,简单来讲就是将微调的过程分为两个步骤:
1.第一步将预训练模型在一个数据量大且高质量的数据集上微调,使之迁移到某个问题的通用任务中,论文中是AS2任务(Answer Sentence Selection),也就是问答
2.第二步将模型再在特定领域问题数据集上在微调,使之自适应特定类型的领域
这里有点绕,我解释一下:
1.将预训练模型在一个数据量大且高质量的数据集上微调,使之迁移到某个问题的通用任务中。论文首先在ASNQ数据集对预训练模型进行第一次微调(ASNQ数据集是论文作者自己构建的一个通用的问答数据集,涉及很多领域,比如银行、医学、常识问题等),将模型迁移(transfer)到通用问答任务中
2.将模型再在特定领域问题数据集上在微调,使之自适应特定类型的问答领域。之后论文将模型再在目标数据集上微调,使模型自适应(adapt)特定领域的问答,比如银行业的问答
这样做的好处论文里说了几点:
1.相比于一次微调的方法,进行两次微调可以提高模型的稳定性
2.目标数据集的数据量很小的时候模型效果也可以很好。这就很好的解决了目标数据集数据量不够的问题,对于特定领域的问答来说,很难搜集到大量的问答数据,如果直接用小数据集迁移学习预训练的transformer模型的话,由于transformer模型的参数量很大,会导致训练过程不稳定不易收敛
3.对噪声的鲁棒性很好,即使使用有噪声的目标数据集,模型效果也可以很好
4.除了问答,TANDA也可以用在其他NLP任务中
2.ASNQ数据集
ASNQ数据集是作者为了第一次微调构建的大型通用的问答数据集,这个数据集来源于 Google Natural Questions (NQ)数据集,NQ数据集是为阅读理解任务(MR)构建的大型数据集。
3. 效果
作者在不同数据集上对比了FT(一次微调)和TANDA的效果,模型使用了四种,用MAP和MRR作为评价指标
最终的效果如下:
稳定性:
对噪声的鲁棒性: