爬在NLP的大道上——Question Answering Infused Pre-training of General-Purpose Contextualized Representations

论文地址:https://arxiv.org/pdf/2106.08190.pdf

Motivation:

传统的预训练方式都是基于上下文信息理解的(BERTs),能否考虑改变这一种方式,使用问答的形式来训练模型(原文中未说明灵感来源,笔者估计可能与QA任务近年的发展,以及从人类学习方式中的观察有关)

Method:

  1. (核心方法)预训练阶段在使用RoBERTa representation的基础上,通过大量的QA pairs数据对模型进行预训练:pic1

其中,q侧使用两个MLP模型(start,end)对CLS进行表示,p侧使用token-level级embedding表示。
训练目标是进行如下预测:对于给定q,在文本c中找到answer对应的start与end位置
同时引入知识蒸馏的方法,总体预训练的Loss为:pic2
2. 这种预训练模型在论文中被实现证明在四种下游任务中有效:
1)paraphrase排序:通过计算候选句和目标局的向量相似度来实现
2)paraphrase分类:对输入的句子对在最后八层的网络输出进行logistics回归
3)命名体识别:通过问题(what is …?)初始化embedding,再对embedding在相应数据集上进行fine tuning(与4)相似)
4)zero-shot情感分类:通过对相应问题(why is … good?)进行回答的方式进行:pic3

Tips:

  1. 以QA任务为灵感,直接改变了预训练方法

Results:

  1. 在所述的四项任务的官方数据集(SQuAD、WMT、CoNLL等)上的zero-shot/few-shot的表现都达到了SOTA

My Thoughts:

  1. 论文证明了使用这种QA的pre-training的方法效果还行,且在相关任务的zero-shot/few-shot表现上很突出
  2. 比较关心这种方法的embedding质量检测和效率实验(论文中未展示,速度应该会慢,但具体慢多少?)

(ps:本文图片均来自于原paper,侵删)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值