Adam论文:https://arxiv.org/pdf/1412.6980.pdf
(一)、什么是Adam算法?
Adam(Adaptive momentum)是一种自适应动量的随机优化方法(A method for stochastic optimization),经常作为深度学习中的优化器算法。
(二)、Adam算法如何实现?
(1). 上图就是Adam优化算法在深度学习应用于梯度下降方法的详细过程,有一些参数要做出说明:
- t t t:更新的步数(steps)
- α \alpha α:学习率,用于控制步幅(stepsize)
- θ \theta θ:要求解(更新)的参数
- f ( θ ) f(\theta) f(θ):带有参数 θ \theta θ的随机目标函数,一般指损失函数
- g t g_t gt:目标函数 f ( θ ) f(\theta) f(θ)对 θ \theta θ求导所得梯度
- β 1 \beta_1 β1:一阶矩衰减系数
- β 2 \beta_2 β2:二阶矩衰减系数
- m t m_t mt:梯度 g t g_t gt的一阶矩,即梯度 g t g_t gt的期望
- v t v_t vt:梯度 g t g_t gt的二阶矩,即梯度 g t 2 g_t^2 gt2的期望
- m t ^ \hat{m_t} mt^: m t m_t mt的偏置矫正,考虑到 m t m_t mt