RoBERTa模型是在RoBERTa中提出的:一种经过严格优化的BERT预训练方法, 由Yinhan Liu,Myle Ott,Naman Goyal,Dujingfei,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettlemoyer,Veselin Stoyanov提出。它基于2018年发布的Google BERT模型。
它建立在BERT的基础上,并修改了关键的超参数,消除了下一句的预训练目标,并以更大的迷你批次和学习率进行训练。
论文摘要如下:
语言模型的预训练已经带来了显着的性能提升,但是不同方法之间的仔细比较具有挑战性。训练在计算上很昂贵,通常是在不同大小的私人数据集上进行的,而且正如我们将显示的那样,超参数的选择对最终结果有重大影响。我们提出了BERT预训练的重复研究(Devlin等人,2019),该研究仔细衡量了许多关键超参数和训练数据量的影响。我们发现BERT的训练不足,并且可以匹配或超过它发布后的每个模型的性能。我们最好的模型在GLUE,RACE和SQuAD上获得了最先进的结果。这些结果突出了以前被忽略的设计选择的重要性,并引起了人们对最近报告的改进来源的质疑。我们发布我们的模型和代码。
提示:
此实现BertModel与微小的嵌入调整以及Roberta预训练模型的设置相同。
RoBERTa与BERT具有相同的体系结构,但是使用字节级BPE作为令牌生成器(与GPT-2相同),并且使用不同的预训练方案。
RoBERTa没有token_type_ids,您不需要指示哪个令牌属于哪个段。只需使用分隔令牌tokenizer.sep_token&