1. 解决的问题
在回答问题“Which NFL team won Super Bown 50?”时,判断“Denver Broncos” 是否属于“NFL team”是非常重要的步骤。相比于在已知“Broncos”预测“Denver”的情况,直接预测“Denver Broncos”难度更大,这意味着这类分词对自监督任务提出了更多的挑战。
2. 优化思路
(1)对随机的邻接分词(span)而非随机的单个词语(token)添加掩膜;
(2)通过使用分词边界的表示来预测被添加掩膜的分词的内容,不再依赖分词内单个 token 的表示。
3. 实验
4. 参考
- SpanBERT:提出基于分词的预训练模型,多项任务性能超越现有模型!:https://mp.weixin.qq.com/s/WzGa5XVi2Op4Lz-1uQXfxQ
- 跨度选择任务完胜BERT!全新预训练方法SpanBERT了解下:https://mp.weixin.qq.com/s/DwlukUivS81hFXskT_nnQg
- BERT-wwm、BERT-wwm-ext、RoBERTa、SpanBERT、ERNIE2:https://www.cnblogs.com/dyl222/p/11845126.html