roberta
总结
1. batches 和 优化器参数:原始BERT优化函数采用的是Adam默认的参数,其中β1=0.9,β2=0.999,在RoBERTa模型中考虑采用了更大的batches(8K),所以将β2改为了0.98。
2. 动态掩码:原始静态mask:BERT中是准备训练数据时,每个样本只会进行一次随机mask(因此每个epoch都是重复),后续的每个训练步都采用相同的mask,这是原始静态mask,即单个静态mask,这是原始 BERT 的做法。动态mask:并没有在预处理的时候执行 mask,而是在每次向模型提供输入时动态生成 mask,所以是时刻变化的。
3. 去掉NSP, 输入变为DOC-SENTENCES:输入只有一部分(而不是两部分),输入的构造类似于FULL-SENTE