论文信息
题目
RoBERTa: A Robustly Optimized BERT Pretraining Approach
一个强力优化的BERT预训练方法
作者
Yinhan Liu,Myle Ott,Naman Goyal, Jingfei Du等
其他
论文下载地址:https://arxiv.org/abs/1907.11692?context=cs.CL
Abstract
这篇论文更像是一篇丰富的实验报告,作者发现BERT严重训练不足,若加大训练后,BERT性能会有很大的提升。
因此,作者从模型设计选择(design choice)、训练策略、语料等方面入手,重新对BERT进行了预训练,得到RoBERTa。实验结果表明RoBERTa在GLUE、RACE和SQuAD都达到了SOTA。这些结果突出了以前被忽略的设计选择的重要性。
Introduction
ELMo、GPT、BERT、XLM等方法虽取得了很大的性能提升,但是很难说清,这么方法中,哪一部分起到最关键的作用。
作者对BERT的预训练过程进行了复现研究,对超参数和训练集的大小的影响进行了评估。
经过实验,作者发现BERT严重训练不足,并提出了训练BERT模型的诀窍,将优化后的模型称为RoBerta,超越了所有现有BERT改进模型。
相比原BERT模型,该文提出的训练的改进方法:
- 训练更久,增加batch size和数据。
- 移除BERT中的NSP任务
- 训练更长的序列
- 根据训练数据动态调整mask方案
RoBERTa在GLUE任务上,创造了4项新的SOTA记录,并在SQuAD和RACE上也与SOTA水平相匹配。
该文章的贡献总结:
- 提出一系列重要的BERT设计选择和训练策略。
- 使用新的更大的数据集CC-NEWS,证明了更多的训练数据能够进一步提升BERT模型在下流任务中的表现。
- 实验结果表明,masked language model在正确的模型设计配置下,比最近提出的其他模型方法都要好。
Background
作者首先回顾介绍了BERT模型的一些内容,本文在这里省略。
Experimental Setup
该节介绍了实验的一些设置
Implementation
作者使用FAIRSEQ复现BERT,但改变了学习率的峰值以及学习率预热的步数,根据不同的设置调整数值,其他超参数与原BERT相同。
作者发现训练时模型对Adam的ε系数敏感,有时通过调整该系数会取得更好的稳定性。当以较大的batch size训练时,将正则项系数β2=0.98也能提升模型稳定性。
Data
作者实验使用了五种大小和领域不同的英语语料库,总计超过160GB的未压缩文本。
数据集:
Evaluation
使用GLUE、SQuAD、RACE三类任务进行评估。
Training Procedure Analysis
该章节探索和量化什么样的设置对于预训练BERT是重要的。
作者实验的模型初始设置与 B E R T B A S E ( L = 12 , H = 768 , A = 12 , 110 M p a r a m