泛读论文（三） RoBERTa

最新推荐文章于 2022-10-31 15:47:48 发布

迷茫，我太迷茫了！

最新推荐文章于 2022-10-31 15:47:48 发布

阅读量404

点赞数

分类专栏：研究生入门阶段文章标签： java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41730733/article/details/127345677

版权

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Introduction

自我训练方法，例如 ELMo 、GPT、BERT、XLM 和 XLNet 带来了显着的性能提升，但要确定方法的哪些方面贡献最大（？）可能具有挑战性。训练的计算成本很高，限制了可以进行的调整量，并且通常使用不同大小的私人训练数据来完成，从而限制了我们衡量建模进步效果的能力。（提出问题）

我们提出了 BERT 预训练的复制研究，其中包括仔细评估超参数调整和训练集大小的影响。我们发现 BERT 训练不足，并提出了一种改进的 BERT 模型训练方法，我们称之为 RoBERTa

我们的修改包括：（1）训练模型的时间更长，批量更大，数据更多； (2) 去除下一句预测目标； (3) 较长序列的训练； (4) 动态改变应用于训练数据的掩码模式。我们还收集了一个与其他私人使用的数据集相当大小的大型新数据集（CC-NEWS），以更好地控制训练集大小的影响。

本文的贡献在于：（1）我们提出了一组重要的 BERT 设计选择和训练策略，并介绍了可导致更好的下游任务性能的替代方案； (2) 我们使用新的数据集 CCNEWS，并确认使用更多数据进行预训练可以进一步提高下游任务的性能；

最低0.47元/天解锁文章

迷茫，我太迷茫了！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
泛读论文（三） RoBERTa

个人学习，不建议参考
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。