RoBERTa: A Robustly Optimized BERT Pretraining Approach 相比于BERT的改进: 用更大的batchs、更多的数据对模型进行更长时间的训练去除next sentence prediction 目标使用较长序列的训练动态改变应用于训练数据的mask模式。