深度学习之自适应学习率算法

最新推荐文章于 2024-07-26 02:12:25 发布

Tom Hardy

最新推荐文章于 2024-07-26 02:12:25 发布

阅读量2.5w

点赞数 5

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_29462849/article/details/80626772

版权

本文探讨了深度学习中自适应学习率的重要性，包括AdaGrad、RMSProp和Adam等算法的工作原理和应用。AdaGrad因梯度历史积累导致学习率过早减小，RMSProp通过指数加权平均解决了这一问题，而Adam则结合了RMSProp和动量，提高了优化效果和超参数鲁棒性。

摘要由CSDN通过智能技术生成

前言

神经网络研究员早就意识到学习率肯定是难以设置的超参数之一，因为它对模型的性能有显著的影响。损失通常高度敏感于参数空间中的某些方向，而不敏感于其他。动量算法可以在一定程度缓解这些问题，但这样做的代价是引入了另一个超参数。在这种情况下，自然会问有没有其他方法。如果我们相信方向敏感度在某种程度是轴对齐的，那么每个参数设置不同的学习率，在整个学习过程中自动适应这些学习率是有道理的。Delta-bar-delta 算法 (Jacobs, 1988) 是一个早期的在训练时适应模型参数各自学习率的启发式方法。该方法基于一个很简单的想法，如果损失对于某个给定模型参数的偏导保持相同的符号，那么学习率应该增加。如果对于该参数的偏导变化了符号，那么学习率应减小。当然，这种方法只能应用于全批量优化中。最近，提出了一些增量（或者基于小批量）的算法来自适应模型参数的学习率。这节将简要回顾其中一些算法。

1.AdaGrad

AdaGrad 算法，如下图所示，独立地适应所有模型参数的学习率，缩放每个参数反比于其所有梯度历史平方值总和的平方根 (Duchi et al., 2011)。具有损失最大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。在凸优化背景中， AdaGrad 算法具有一些令人满意的理论性质。然而，经验上已经发现，对于训练深度神经网络模型而言，从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。 AdaGrad 在某些深度学习模型上效果不错，但不是全部。