论文笔记 | RoBERTa: A Robustly Optimized BERT Pretraining Approach

本文是关于RoBERTa模型的论文笔记,作者详细探讨了预训练过程中超参数选择的重要性,以及如何通过静态与动态masking、调整模型输入格式和增大batch size来优化BERT。RoBERTa在GLUE、RACE和SQuAD等任务上取得了最佳性能。
摘要由CSDN通过智能技术生成

作者:刘锁阵
单位:燕山大学


论文地址:https://arxiv.org/abs/1907.11692
代码地址:https://github.com/pytorch/fairseq

背景介绍

因为在预训练过程中,超参数的选择往往对实验结果有着举足轻重的作用。论文作者在仔细地衡量了各种超参数和训练数据集大小对实验的影响后,提出了RoBERTa:一种鲁棒优化的 BERT 预训练方法。该模型在在GLUE、RACE、SQuAD达到了SOTA。

实验环境

实现
使用FAIRSEQ来重新实现了BERT。大部分优化超参数和原始的BERT实现相同,除了峰值学习率和warmup steps的数量。作者还发现实验对Adam算法中 ϵ \epsilon ϵ项非常敏感。类似地,还发现当训练更大的batch size时,设置 β 2 = 0.98 \beta_2 = 0.98 β2=0.98能提高稳定性。
序列长度最长为512个token。

数据
5个英文语料集合,解压缩后的大小总共超过160GB:

  • BookCorpus和英文维
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值