这个问题目前还没有被充分证明,我们只能从直觉上和已有的一些论文[1,2,3]得到推测: 有助于减缓模型在初始阶段对mini-batch的提前过拟合现象,保持分布的平稳有助于保持模型深层的稳定性 下面来看一下为什么warmup会有这样的效果。