论文笔记 | RoBERTa: A Robustly Optimized BERT Pretraining Approach

最新推荐文章于 2023-12-09 20:42:11 发布

期待成功

最新推荐文章于 2023-12-09 20:42:11 发布

阅读量386

点赞数

分类专栏：笔记文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011150266/article/details/118766500

版权

本文是关于RoBERTa模型的论文笔记，作者详细探讨了预训练过程中超参数选择的重要性，以及如何通过静态与动态masking、调整模型输入格式和增大batch size来优化BERT。RoBERTa在GLUE、RACE和SQuAD等任务上取得了最佳性能。

摘要由CSDN通过智能技术生成

作者：刘锁阵
单位：燕山大学

论文地址：https://arxiv.org/abs/1907.11692
代码地址：https://github.com/pytorch/fairseq

文章目录

背景介绍
实验环境
训练过程
RoBERTa
总结

背景介绍

因为在预训练过程中，超参数的选择往往对实验结果有着举足轻重的作用。论文作者在仔细地衡量了各种超参数和训练数据集大小对实验的影响后，提出了RoBERTa：一种鲁棒优化的 BERT 预训练方法。该模型在在GLUE、RACE、SQuAD达到了SOTA。

实验环境

实现：
使用FAIRSEQ来重新实现了BERT。大部分优化超参数和原始的BERT实现相同，除了峰值学习率和warmup steps的数量。作者还发现实验对Adam算法中 $\epsilon$ 项非常敏感。类似地，还发现当训练更大的batch size时，设置 $\beta_2 = 0.98$ 能提高稳定性。
序列长度最长为512个token。

数据：
5个英文语料集合，解压缩后的大小总共超过160GB：

BookCorpus和英文维

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文笔记 | RoBERTa: A Robustly Optimized BERT Pretraining Approach

作者：刘锁阵单位：燕山大学
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。