BERT可以增加哪些预训练任务?

BERT基于NSP和MLM两个任务进行预训练,如果对BERT进行改进,一个可行的方向就是增加更多的预训练任务,那么除了这两个任务之外,还可以增加哪些预训练任务呢?

可以增加的预训练任务有一个前提,就是这些任务的训练数据要能从无监督的数据中获取,这样才能获取到海量的数据,符合这一要求的任务可以进行尝试。

提供一些预训练任务的思路:

1.Capitalization Prediction Task
预测单词是否大写。与其他词语相比,大写词语通常具有特定的语义价值。

2.Token-Document Relation Prediction Task
预测一个段落中的某个token是否出现在原始文档的其他段落中。
在文档不同部分都出现的单词通常是文档中的关键词,因此这一任务可以在一定程度上使模型能够捕获文档的关键字。

3.Sentence Distance Task
学习句子间距离的任务。该任务被建模为一个3分类的问题,“0”表示两个句子在同一个文档中相邻;“1”表示两个句子在同一个文档中,但不相邻;
“2”表示两个句子来自两个不同的文档。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值