Abstract & Introduction & Related Work
- 研究任务
- 一种预训练方法,旨在更好地表示和预测文本的span
- 已有方法和相关工作
- 面临挑战
- 创新思路
- 在BERT的基础上,mask连续的随机span而不是tokens
- 训练span边界表征来预测被mask的span的全部内容,而不依赖其中的单个token表征
- 实验结论
- 在同样的训练数据下,在QA数据集上达到了sota
为了实现SpanBERT,我们建立在BERT的一个精心调整的副本上,它本身就大大超过了原始BERT。在建立我们的baseline的同时,我们发现在单段上进行预训练,而不是用下一句预测(NSP)目标的两个半长段,大大改善了大多数下游任务的性能。因此,我们将我们的修改加在调整后的单序列BERT baseline
Model
我们提出了SpanBERT,这是一种自我监督的预训练方法,旨在更好地代表和预测文本的跨度。我们的方法受到BERT(Devlin等人,2019)的启发,但在三个方面偏离了其双文本分类框架。首先,我们使用不同的随机过程来掩盖标记的跨度,而不是单个标记。我们还引入了一个新的辅助目标–SBO–该目标试图仅使用跨度边界的标记的表示来预测整个被掩盖的跨度。最后,SpanBERT对每个训练实例的单个连续文本段(而不是两个)进行采样,因此不使用BERT的下句预测目标,我们省略了这个目标
Span Masking
每一次迭代,先从几何分布中采样一个span长度(倾向于短的span),然后随机选取一个起点进行mask,我们总是采样一个序列的完整单词,而不是子词,而且出发点必须是一个单词
选20%进行mask效果,最大长度设置为10,平均长度为3.8
Span Boundary Objective
span选择模型(Lee等人,2016,2017;He等人,2018)通常使用一个span的边界标记创建一个固定长度的代表,为了支持这样的模型,我们希望span结束时的表征能够尽可能多地概括span内部的内容。为此,我们引入了一个span边界目标,即只用边界处观察到的标记的表征来预测一个被掩盖的跨度的每个标记(图1)
s和e代表start和end
先concat,再经过两个线性层,都用GeLU激活函数
然后,我们使用矢量表示
y
i
y_i
yi 来预测标记
x
i
x_i
xi,并计算交叉熵损失,与MLM目标完全一样
Single-Sequence Training
只需对一个最多为n=512个token的连续段进行采样,而不是对两个加起来为n个token的半段进行采样
总之,SpanBERT通过以下方式对span表征进行预训练。
- 使用基于几何分布的掩蔽方案掩蔽全词的span(第3.1节)
- 除了使用单序列数据管道的MLM(第3.3节)优化辅助span边界目标(第3.2节)外
Results
Ablation Studies
Conclusion
我们提出了一种基于span的预训练的新方法,该方法通过以下方式扩展了BERT:
(1)屏蔽连续的随机span,而不是随机的token
(2)训练span边界表征以预测被屏蔽span的整个内容,而不依赖于其中的单个token表征
总之,我们的预训练过程产生的模型在各种任务上的表现超过了所有的BERT baseline,特别是在span选择任务上达到了大幅提高的性能
Remark
QA神器,好!(又是danqi女神的工作呜呜呜太强了吧)