Adam如何自适应学习率的？

最新推荐文章于 2024-06-26 16:27:32 发布

塔楼

最新推荐文章于 2024-06-26 16:27:32 发布

阅读量5.1k

点赞数 5

分类专栏：优化算法文章标签：深度学习机器学习算法

本文链接：https://blog.csdn.net/qq_28915885/article/details/120678765

版权

优化算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Adam是一种优化算法，通过结合一阶动量和二阶动量来实现自适应学习率调整。它利用指数滑动平均来平滑梯度估计，避免频繁更新的参数受单个异常样本的影响，同时确保稀疏更新的参数能从少量信息中学习。一阶动量mt记录了过去梯度的加权平均，二阶动量vt则考虑了梯度的平方和，动态调整学习率，使得更新更稳定且适应不同参数的特性。这种机制使Adam在深度学习中成为广泛应用的优化器。

摘要由CSDN通过智能技术生成

Adam是如何做到自适应学习率的？

优化算法统一公式
- 待优化参数： $w_t$ ;
- 优化目标： $f(w_t)$ ;
- 当前参数梯度： $g_t=\nabla{f(w_t)}$ ;
- 一阶动量和二阶动量： $\eta_t=\alpha· m_t/\sqrt{v_t}$ ；
- 统一的更新公式为： $w_{t+1}=w_t-\eta_t$ ；
Adam时如何自适应调整学习率的？
- 首先，介绍SGD和带动量的SGD。SGD的更新公式如下： $w_{t+1}=w_t-\alpha·g_t$ ，相当于 $m_t=g_t$ ， $v_t=I^2$ 。但由于其更新只依赖于当前的数据，使得其难以跳出局部最优。为利用历史的更新方向的趋势，使得其更新方向按照历史的趋势进行，命 $m_t=\beta_1·m_{t-1}+(1-\beta_1)g_t$ ，这样有 $\beta_1$ 比例的方向由历史方向决定，因此 $w_{t+1}=w_t-\alpha·m_t$ ；
- 使用SGD更新参数时，其参数的学习率是对于每一个 $g_t$ 都是相同的，即无论 $g_t$ 中的内容是大还是小，都是采用同样的步长进行更新，但我们希望对经常更新的参数不至于被单个样本影响太大，希望学习缓慢一些，对于偶尔更新的参数，模型了解的信息太少，希望梯度小的学习率大一些，以便于我们能够从少量信息中获取到信息。因此，引入二阶动量 $v_t=\sum_{\tau=1}^{t}g_t^2$ ，将其作为学习率 $\alpha$ 的分母，可以动态调整学习率的大小，得到新的学习率 $\alpha/\sqrt{v_t+\epsilon}$ ，更新频率越大的则学习率越小，更新频率越小的，学习率越大。引入二阶动量的梯度更新法则之后， $v_t$ 可能很快就累积到很大。借鉴 $m_t$ 利用当前时间端前一段时间的梯度信息，使用指数滑动平均，得到 $v_t=\beta_1·v_{t-1}+(1-\beta_1)g_t^2$ ，因此最终引入二阶动量的参数更新公式为： $w_{t+1}=w_t-\alpha·g_t/{\sqrt{v_t+\epsilon}}$ ;
- 结合两个动量的更新就是Adam算法了： $w_{t+1}=w_t-\alpha·m_t/{\sqrt{v_t+\epsilon}}$ ；
  
  从上述可以看出，Adam自适应调整学习率是从二阶动量 $v_t$ 上进行的，目的是为了避免经常更新的参数被单个异常样本影响，同时能够学习到出现较少的样本信息。

参考：

塔楼

关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Adam如何自适应学习率的？

Adam是如何做到自适应学习率的？优化算法统一公式待优化参数：wtw_twt;优化目标：f(wt)f(w_t)f(wt);当前参数梯度：gt=∇f(wt)g_t=\nabla{f(w_t)}gt=∇f(wt);一阶动量和二阶动量：ηt=α⋅mt/vt\eta_t=\alpha· m_t/\sqrt{v_t}ηt=α⋅mt/vt；统一的更新公式为：wt+1=wt−ηtw_{t+1}=w_t-\eta_twt+1=wt−ηt；Adam时如何自适应调整学习率
复制链接

扫一扫

专栏目录