神经网络调参技巧：warmup策略

最新推荐文章于 2024-08-12 11:34:49 发布

炼丹笔记

最新推荐文章于 2024-08-12 11:34:49 发布

阅读量3.1k

点赞数 2

文章标签：人工智能深度学习机器学习神经网络大数据

本文链接：https://blog.csdn.net/m0_52122378/article/details/123457175

版权

本文探讨了神经网络训练中的warmup策略，特别是在Transformer架构中的应用。该策略通过初始阶段较小的学习率逐渐增大到预设最大值，能有效提升模型稳定性。尽管实践效果显著，其理论依据仍有待深入研究。实验表明，warmup对于SGD优化器尤其关键，且Rectified Adam优化器在解决warmup初期数据样本不足导致的问题上展现出优势。

摘要由CSDN通过智能技术生成

有一些论文对warmup进行了讨论，使用 SGD 训练神经网络时，在初始使用较大学习率而后期改为较小学习率在各种任务场景下都是一种广为使用的做法，在实践中效果好且最近也有若干文章尝试对其进行了理论解释。例如《On Layer Normalization in the Transformer Architecture》等，论文中作者发现Post-LN Transformer在训练的初始阶段，输出层附近的期望梯度非常大，所以没有warm-up的话模型优化过程就会非常不稳定。

虽然在实践中效果好且最近也有若干文章尝试对其进行了理论解释，但到底为何有效，目前还没有被充分证明。

Transformer中的warm-up可以看作学习率 lr 随迭代数 t 的函数：

学习率 lr 会以某种方式递减，学习率从0开始增长，经过 Twarmup 次迭代达到最大。论文中对Adam，SGD等有无warmup做了实验，

可以看到，warmup增加了训练时间，同时在最初阶段使用较大的学习率会导致Loss偏大，对模型的训练的影响是巨大的。warmup在这里对SGD是非常重要的。

Rectified Adam针对warmup前期数据样本不足导致的biased variance的问题提出了解决方案，论文中实验结果看到还是有一定效果的。RAdam 由随机初始化带来的 Variance 比较小。即使隔离掉 warmup 部分的影响后Variance 也是要比 Adam 小的。

class AdamWarmup(Optimizer):
    # DOTA
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0, warmup = 0):
        if not 0.0 <= lr:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if not 0.0 <= eps:
            raise ValueError("Invalid epsilon value: {}