发顺丰
目录
motivation
PLM更注重通用的语义表示,MRC需要从多个文档或句子中抽取证据。
通过Surrounding Sentences Prediction(SSP) 和 Retrieval based Masked Language Modeling (RMLM)来弥补PLM和MRC之间的gap,增强PLM的证据抽取能力,在MRC任务上可以很好的迁移这些能力。
方法
预处理
数据集:英文维基百科,2020/5/1。用bert tokenized切成500个token一个segment。每个segment看成一个doc,切成句。句子token数小于5的拼到前面去。
每个doc,选30%最重要的句子作为query。实体或名词出现的次数越多越重要,一个句子中包含的实体和名词重要度的累加为句子重要度。将其中的被提到的实体或和名词mask,防止模型学到shortcut
任务定义
前t个为从doc中抽取的query。
SSP任务
从doc中抽取几个句子作为query,剩下的合并作为passage,模型预测每个query的前一句和后一句。为了避免学到shortcut,将query中重复出现的实体或名词按比例mask掉。
BERT maask 90%实体 30%名词,
ROBERTa mask 90%实体 30%名词, 和90%实体 90%名词两份数据集,训练的时候混合一起训练。
预测query原先的位置,函数r是输出query原先的顺序。
SSP任务是要预测query的在原来的文档中前一句和后一句
RMLM任务
还原mask掉的实体或名词
模型
Query表示
在预训练阶段,复用了上述公式,
来生成任务特定的query表示,来缓解overfit
SSP
query在hidden上做singe-head attention,获取证据信息,dense获得每个句子对query的得分。
RELM
z表示query中被mask的token的index。
函数f是 normalized的两层dense,
优化函数
a,b表示query对应的原始doc中的前一句和后一句index,其概率分布如下。
SSP的目标函数
RMLM中,query被mask的token 的index集合为,golden集合为
恢复mask的token概率为
x‘ 表示词表中的token ,e(x)为x的word embeding。
目标函数为
Fine tune阶段
对于multiple choice QA,把问题和选项拼起来最为query。每个example可以i变成
query的表示仍然使用Query表示部分的多头注意力。证据抽取过程不同的任务不同。
Multiple Choice QA
每个句子的表示为
对于Multi-RC数据集,不定项选择题,每个选项二分类
Span Extraction
实验结果
BERT w.M 继续用MLM任务,维基百科数据训BERT
BERT-Q 加入多头注意力机制获取query表示
BERT-Q w. R/S 在BERT-Q的基础上,用SSP和RMLM任务pretrain
BERT-Q w. R 用RMLM任务pretrain
相比于base,性能提升比较明显。但是加入了两个预训练任务进行post train。
1. 只用多头注意力机制获取query表示性能提升不明显甚至下降,必须配合预训练任务,
2. 用MLMpost train,性能提升有限
3. 两个任务一起使用性能好,只用一个效果不明显,只用RMLM性能下降
在Span Extraction 任务上 Multi-RC
GRR 是Graph Recurrent Retriever
在SQuAD 2.0
在Multi-RC上 证据抽取的准召率。