RoBERTa

最新推荐文章于 2023-08-16 21:15:00 发布

宁缺100

最新推荐文章于 2023-08-16 21:15:00 发布

阅读量3k

点赞数 6

分类专栏：自然语言处理迁移学习文章标签： RoBERT 迁移学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24434491/article/details/105758194

版权

RoBERTa模型是在RoBERTa中提出的：一种经过严格优化的BERT预训练方法，由Yinhan Liu，Myle Ott，Naman Goyal，Dujingfei，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettlemoyer，Veselin Stoyanov提出。它基于2018年发布的Google BERT模型。

它建立在BERT的基础上，并修改了关键的超参数，消除了下一句的预训练目标，并以更大的迷你批次和学习率进行训练。

论文摘要如下：

语言模型的预训练已经带来了显着的性能提升，但是不同方法之间的仔细比较具有挑战性。训练在计算上很昂贵，通常是在不同大小的私人数据集上进行的，而且正如我们将显示的那样，超参数的选择对最终结果有重大影响。我们提出了BERT预训练的重复研究（Devlin等人，2019），该研究仔细衡量了许多关键超参数和训练数据量的影响。我们发现BERT的训练不足，并且可以匹配或超过它发布后的每个模型的性能。我们最好的模型在GLUE，RACE和SQuAD上获得了最先进的结果。这些结果突出了以前被忽略的设计选择的重要性，并引起了人们对最近报告的改进来源的质疑。我们发布我们的模型和代码。

提示：

此实现BertModel与微小的嵌入调整以及Roberta预训练模型的设置相同。

RoBERTa与BERT具有相同的体系结构，但是使用字节级BPE作为令牌生成器（与GPT-2相同），并且使用不同的预训练方案。

RoBERTa没有token_type_ids，您不需要指示哪个令牌属于哪个段。只需使用分隔令牌tokenizer.sep_token&

最低0.47元/天解锁文章

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
RoBERTa

RoBERTa模型是在RoBERTa中提出的：一种经过严格优化的BERT预训练方法，由Yinhan Liu，Myle Ott，Naman Goyal，Dujingfei，Mandar Joshi，Danqi Chen，Omer Levy，Mike Lewis，Luke Zettlemoyer，Veselin Stoyanov提出。它基于2018年发布的Google BERT模型。它建立在BER...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。