RoBERTa: A Robustly Optimized BERT Pretraining Approach
Introduction
自我训练方法,例如 ELMo 、GPT、BERT、XLM 和 XLNet 带来了显着的性能提升,但要确定方法的哪些方面贡献最大(?)可能具有挑战性。训练的计算成本很高,限制了可以进行的调整量,并且通常使用不同大小的私人训练数据来完成,从而限制了我们衡量建模进步效果的能力。(提出问题)
我们提出了 BERT 预训练的复制研究 ,其中包括仔细评估超参数调整和训练集大小的影响。我们发现 BERT 训练不足,并提出了一种改进的 BERT 模型训练方法,我们称之为 RoBERTa
我们的修改包括:(1)训练模型的时间更长,批量更大,数据更多; (2) 去除下一句预测目标; (3) 较长序列的训练; (4) 动态改变应用于训练数据的掩码模式。我们还收集了一个与其他私人使用的数据集相当大小的大型新数据集(CC-NEWS),以更好地控制训练集大小的影响。
本文的贡献在于:(1)我们提出了一组重要的 BERT 设计选择和训练策略,并介绍了可导致更好的下游任务性能的替代方案; (2) 我们使用新的数据集 CCNEWS,并确认使用更多数据进行预训练可以进一步提高下游任务的性能;