Adam三连问

最新推荐文章于 2024-05-03 14:22:45 发布

Linsoft1994

最新推荐文章于 2024-05-03 14:22:45 发布

阅读量342

点赞数

分类专栏： Machine Learning 文章标签： Adam 调参深度学习

本文链接：https://blog.csdn.net/Linsoft1994/article/details/100784777

版权

Machine Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Adam能和L2正则一起使用？

不能。
L2正则在SGD中和weight decay是等价的，但是在Adam中就不等价了。
因为在Adam中，每个参数的梯度的计算和历史梯度相关，不是简单乘上学习率

参考：https://zhuanlan.zhihu.com/p/63982470

Adam能解决梯度爆炸？

不能。
理论上，Adam是不会发生梯度爆炸的问题，因为梯度更新式：
$\begin{aligned} m_t &= m_{t-1}\cdot \beta_1 + g_t \cdot (1 - \beta_1)\\ v_t &= v_{t-1}\cdot \beta_2 + g_t^2 \cdot (1 - \beta_2)\\ \hat{m_t} &= m_t / (1-beta_1^t)\\ \hat{v_t} &= m_t / (1-beta_2^t)\\ \hat{g_t} &= lr \cdot \frac{\hat{m_t}}{\sqrt{\hat{v_t}}} \end{aligned}$
理想情况下， $\hat{g_t} = lr \cdot \frac{\hat{m_t}}{\sqrt{\hat{v_t}}} \approx lr \cdot \frac{\mathbb{E}(g)} { \sqrt{\mathbb{E}(g^2)}}$ ，而其中 $\frac{\mathbb{E}(g)} { \sqrt{\mathbb{E}(g^2)}} |\le1$ ，得到 $\hat{g_t} \le lr$ ，即每次更新梯度的大小不会超过学习率，所以不会出现梯度爆炸的问题。

实际情况下，使用滑动平均且去偏之后， $\hat{g_t} = lr \cdot \frac{\hat{m_t}}{\sqrt{\hat{v_t}}}$ 仍然是估计。
通常， $beta_1=0.9$ 和 $beta_2=0.999$ ，这样在滑动平均后，分子 $\hat{m_t}$ 会更偏向于当前梯度，分母 $\hat{v_t}$ 相对偏向于历史梯度，导致在梯度 $g_t$ 爆炸后，滑动平均的分子 $\hat{m_t}$ 远大于分母 $\hat{v_t}$ ，导致最终计算的更新步长 $\hat{g_t}$ 也偏大，远远超出 $l r$ 。所以，实际情况下Adam无法避免梯度爆炸问题。

Adam不需要学习率衰减？

需要。
在神经网络训练后期，梯度大小变化不大，经过滑动平均后， $\frac{\hat{m_t}}{\sqrt{\hat{v_t}}}$ 在这种情况下是接近 1 的，更新步长 $\hat{g_t}$ 保持在初始学习率 $l r$ 。
如果初始学习率 $l r$ 较大，则在网络训练后期，梯度保持在初始学习率 $l r$ ，导致训练难以进一步收敛到极小值点。
为了在初期快速收敛，而后期稳定进入某个极小值，在设定较大初始学习率后，需要进行学习率衰减。

番外：mini batch

通常batch size是2的幂次，由于GPU并行度主要是2的幂次，而且GPU本身是SIMT架构，为了充分利用GPU资源，防止出现闲置。
SGD 是求解 $\nabla \mathbb{E}(\log \mathbb{P}(x, y|\theta))$ ，也就是 $\mathbb{E}(\nabla \log \mathbb{P}(x, y|\theta))$ 。所以，本质上也是求梯度的期望。
直接对从数据源对数据进行抽样后，再计算的mini batch梯度是标准梯度（最小化泛化误差的梯度）的无偏估计，比如在线学习是无偏的，样本使用一次即丢弃；而对于从训练集中进行独立采样，在第一个epoch时，mini batch的梯度都是无偏估计，但在后续再从训练集中进行采样计算，则变成了有偏估计。

参考：http://www.huaxiaozhuan.com/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/chapters/4_optimization.html

Linsoft1994

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Adam三连问

Adam能和L2正则一起使用？不能。L2正则在SGD中和weight decay是等价的，但是在Adam中就不等价了。因为在Adam中，每个参数的梯度的计算和历史梯度相关，不是简单乘上学习率参考：https://zhuanlan.zhihu.com/p/63982470Adam能解决梯度爆炸？不能。理论上，Adam是不会发生梯度爆炸的问题，因为梯度更新式：mt=mt−1⋅β1+g...
复制链接

扫一扫