深度学习优化算法大全系列7:NAdam，算法选择，调参

最新推荐文章于 2025-03-09 15:48:31 发布

bitcarmanlee

最新推荐文章于 2025-03-09 15:48:31 发布

阅读量5.3k

点赞数 2

分类专栏： tensorflow深度学习算法文章标签： NAdam 算法选择

本文链接：https://blog.csdn.net/bitcarmanlee/article/details/122490122

版权

tensorflow深度学习算法专栏收录该内容

21 篇文章

订阅专栏

1.NAdam集大成

前面我们讲Adam的时候，提到Adam是Adaptive+Momentum。更前面的时候，我们还提到Nesterov，如果把Nesterov跟Adam结果，就是我们最后的集大成者NAdam。

class Nadam(Optimizer):
  """Nesterov Adam optimizer.

  Much like Adam is essentially RMSprop with momentum,
  Nadam is Adam RMSprop with Nesterov momentum.

  Default parameters follow those provided in the paper.
  It is recommended to leave the parameters of this optimizer
  at their default values.

  Arguments:
      lr: float >= 0. Learning rate.
      beta_1/beta_2: floats, 0 < beta < 1. Generally close to 1.
      epsilon: float >= 0. Fuzz factor. If `None`, defaults to `K.epsilon()`.
  """

  def __init__(self,
               lr=0.002,
               beta_1=0.9,
               beta_2=0.999,
               epsilon=None,
               schedule_decay=0.004,
               **kwargs):
    super(Nadam, self).__init__(**kwargs)
    with K.name_scope(self.__class__.__name__):
      self.iterations = K.variable(0, dtype='int64', name='iterations')
      self.m_schedule = K.variable(1., name='m_schedule')
      self.lr = K.variable(lr, name='lr')
      self.beta_1 = K.variable(beta_1, name='beta_1')
      self.beta_2 = K.variable(beta_2, name='beta_2')
    if epsilon is None:
      epsilon = K.epsilon()
    self.epsilon = epsilon
    self.schedule_decay = schedule_decay
...

tensorflow中Nadam源码，开篇两句话就揭示了本质：
1.Adam的本质是带动量的RMSprop。
2.Nadam是带Nesterov动量的Adam RMSprop。

其 $\beta_1, \beta_2$ 等参数与Adam的含义与数值都是一致的。