深度学习中的Adam优化算法详解

Adam算法是一种自适应动量优化方法,常用于深度学习中的梯度下降。它结合了一阶矩和二阶矩的估计,通过校正一阶和二阶矩的偏置来平滑梯度更新,同时提供自适应学习率。Adam算法的优点包括梯度平滑过渡、环境感知能力和可解释的超参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Adam论文https://arxiv.org/pdf/1412.6980.pdf

(一)、什么是Adam算法?
Adam(Adaptive momentum)是一种自适应动量的随机优化方法(A method for stochastic optimization),经常作为深度学习中的优化器算法。

(二)、Adam算法如何实现?
在这里插入图片描述
(1). 上图就是Adam优化算法在深度学习应用于梯度下降方法的详细过程,有一些参数要做出说明:

  1. t t t:更新的步数(steps)
  2. α \alpha α:学习率,用于控制步幅(stepsize)
  3. θ \theta θ:要求解(更新)的参数
  4. f ( θ ) f(\theta) f(θ):带有参数 θ \theta θ的随机目标函数,一般指损失函数
  5. g t g_t gt:目标函数 f ( θ ) f(\theta) f(θ) θ \theta θ求导所得梯度
  6. β 1 \beta_1 β1:一阶矩衰减系数
  7. β 2 \beta_2 β2:二阶矩衰减系数
  8. m t m_t mt:梯度 g t g_t gt的一阶矩,即梯度 g t g_t gt的期望
  9. v t v_t vt:梯度 g t g_t gt的二阶矩,即梯度 g t 2 g_t^2 gt2的期望
  10. m t ^ \hat{m_t} mt^ m t m_t mt的偏置矫正,考虑到 m t m_t mt
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值