论文地址:https://arxiv.org/pdf/2106.08190.pdf
Motivation:
传统的预训练方式都是基于上下文信息理解的(BERTs),能否考虑改变这一种方式,使用问答的形式来训练模型(原文中未说明灵感来源,笔者估计可能与QA任务近年的发展,以及从人类学习方式中的观察有关)
Method:
- (核心方法)预训练阶段在使用RoBERTa representation的基础上,通过大量的QA pairs数据对模型进行预训练:
其中,q侧使用两个MLP模型(start,end)对CLS进行表示,p侧使用token-level级embedding表示。
训练目标是进行如下预测:对于给定q,在文本c中找到answer对应的start与end位置
同时引入知识蒸馏的方法,总体预训练的Loss为:
2. 这种预训练模型在论文中被实现证明在四种下游任务中有效:
1)paraphrase排序:通过计算候选句和目标局的向量相似度来实现
2)paraphrase分类:对输入的句子对在最后八层的网络输出进行logistics回归
3)命名体识别:通过问题(what is …?)初始化embedding,再对embedding在相应数据集上进行fine tuning(与4)相似)
4)zero-shot情感分类:通过对相应问题(why is … good?)进行回答的方式进行:
Tips:
- 以QA任务为灵感,直接改变了预训练方法
Results:
- 在所述的四项任务的官方数据集(SQuAD、WMT、CoNLL等)上的zero-shot/few-shot的表现都达到了SOTA
My Thoughts:
- 论文证明了使用这种QA的pre-training的方法效果还行,且在相关任务的zero-shot/few-shot表现上很突出
- 比较关心这种方法的embedding质量检测和效率实验(论文中未展示,速度应该会慢,但具体慢多少?)
(ps:本文图片均来自于原paper,侵删)