[nlp] roberta

RoBERTa对比BERT进行了多项改进,包括使用更大批次、动态掩码、去掉NSP任务、使用更大数据集和更大规模的BPE字典。动态掩码在每个训练步中生成,增加了模型的多样性;去除NSP任务,输入改为DOC-SENTENCES,专注句子理解;数据集扩大10倍,训练步数增加,提升模型性能;BPE采用字节级别,词汇表扩大至50M,无需额外预处理。
摘要由CSDN通过智能技术生成

roberta

总结

1. batches 和 优化器参数:原始BERT优化函数采用的是Adam默认的参数,其中β1=0.9,β2=0.999,在RoBERTa模型中考虑采用了更大的batches(8K),所以将β2改为了0.98

2. 动态掩码:原始静态mask:BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复),后续的每个训练步都采用相同的mask,这是原始静态mask,即单个静态mask,这是原始 BERT 的做法。动态mask:并没有在预处理的时候执行 mask,而是在每次向模型提供输入时动态生成 mask,所以是时刻变化的。

3. 去掉NSP, 输入变为DOC-SENTENCES:输入只有一部分(而不是两部分),输入的构造类似于FULL-SENTE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值