- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 给模型热身——深度学习中的warm up
Warm up是BERT中一项重要的trick,它是什么,它究竟能带给我们什么,以及如何实现。它是什么Warm up是一种学习率的设置方法,其学习率的变化如下图所示。假设我们使用随训练衰减的学习率设置方法,学习率的最大值是ppp。在模型训练的前nnn步进行warm up,第iii步的学习率为in⋅p\frac {i}{n} \cdot pni⋅p它能带给我们什么有时候,在我们...
2020-04-24 22:52:27 5088
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人