Warm up是BERT 中一项重要的trick,它是什么,它究竟能带给我们什么,以及如何实现。 它是什么 Warm up是一种学习率的设置方法,其学习率的变化如下图所示。 假设我们使用随训练衰减的学习率设置方法,学习率的最大值是 p p p。 在模型训练的前 n n