BERT家族：RoBERTa

最新推荐文章于 2024-04-24 22:59:07 发布

姆爷

最新推荐文章于 2024-04-24 22:59:07 发布

阅读量801

点赞数

文章标签：自然语言处理深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32223859/article/details/106343313

版权

RoBERTa

论文：《RoBERTa：A Robustly Optimized BERT Pretraining Approach》

作者/机构：Facebook + 华盛顿大学

论文地址：https://arxiv.org/pdf/1907.11692

年份：2019.7

RoBERTa在训练方法上对Bert进行改进，主要体现在改变mask的方式、丢弃NSP任务、训练超参数优化和使用更大规模的训练数据四个方面。其改进点如下：

（1）静态Mask变动态Mask

Bert在整个预训练过程，选择进行mask的15%的Tokens是不变的，也就是说从一开始随机选择了这15%的Tokens，之后的N个epoch里都不再改变了。这就叫做静态Masking。

而RoBERTa一开始把预训练的数据复制10份，每一份都随机选择15%的Tokens进行Masking，也就是说，同样的一句话有10种不同的mask方式。然后每份数据都训练N/10个epoch。这就相当于在这N个epoch的训练中，每个序列的被mask的tokens是会变化的。这就叫做动态Masking。

这样做的目的是：动态mask相当于间接的增加了训练数据，有助于提高模型性能。

（2）移去NSP任务

Bert为了捕捉句子之间的关系，使用了NSP任务进行预训练，就是输入一对句子A和B，判断这两个句子是否是连续的。两句子最大长度之和为512。

RoBERTa去除了NSP，而是每次输入连续的多个句子，直到最大长度512（可以跨文章）。这种训练方式叫做（FULL-SENTENCES），而原来的Bert每次只输入两个句子。

这样做的目的是：实验发现，消除NSP损失在下游任务的性能上能够与原始BERT持平或略有提高。这可能是由于Bert一单句子为单位输入，模型无法学习到词之间的远程依赖关系，而RoBERTa输入为连续的多个句子，模型更能俘获更长的依赖关系，这对长序列的下游任务比较友好。

（3）更大的mini-batch

BERTbase 的batch size是256，训练1M个steps。RoBERTa的batch size是8k。

这样做的目的是：作者是借鉴了在了机器翻译中的训练策略，用更大的batch size配合更大学习率能提升模型优化速率和模型性能的现象，并且也用实验证明了确实Bert还能用更大的batch size。

（4）更多的训练数据，更长的训练时间

借鉴RoBERTa（160G）用了比Bert（16G）多10倍的数据。性能确实再次彪升。当然，也需要配合更长时间的训练。

这样做的目的是：很明显更多的训练数据增加了数据的多样性（词汇量、句法结构、语法结构等等），当然能提高模型性能。

更多NLP相关技术干货，请关注微信关注【NLP有品】

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
BERT家族：RoBERTa

RoBERTa论文：《RoBERTa：A Robustly Optimized BERT Pretraining Approach》作者/机构：Facebook + 华盛顿大学论文地址：https://arxiv.org/pdf/1907.11692年份：2019.7RoBERTa在训练方法上对Bert进行改进，主要体现在改变mask的方式、丢弃NSP任务、训练超参数优化和使用更大规模的训练数据四个方面。其改进点如下：（1）静态Mask变动态MaskBert在整个预训练过程，选择
复制链接

扫一扫

姆爷 CSDN认证博客专家 CSDN认证企业博客

码龄9年

22: 原创

27万+: 周排名

156万+: 总排名

3万+: 访问

: 等级

411: 积分

8: 粉丝

5: 获赞

0: 评论

53: 收藏

私信

关注

热门文章

分类专栏

预训练语言模型 13篇
python 1篇
BERT 15篇

最新评论

强化学习笔记——（1）强化学习简介
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。