相较于Bert 改进版的RoBERTa到底改进了什么? 静态Masking vs 动态Masking with NSP vs without NSP 更大的mini-batch 原本的BERTbase 的batch size是256,训练1M个steps。RoBERTa的batch size为8k。 更多的数据,更长时间的训练 BPE编码 BPE