[解读] Why Adam Beats SGD for Attention Models

最新推荐文章于 2022-07-29 17:25:01 发布

天在那边

最新推荐文章于 2022-07-29 17:25:01 发布

阅读量738

点赞数 1

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/weipf8/article/details/105756588

版权

机器学习同时被 2 个专栏收录

24 篇文章 3 订阅

订阅专栏

深度学习

24 篇文章 7 订阅

订阅专栏

链接: https://arxiv.org/abs/1912.03194v1

本文解释了为什么 Adam 优化方法比 SGD 要更有效, 简单说是因为 SGD 中的梯度范数的偏差太大导致的, 也就是说梯度向量的范数或者某些分量过大. 基于这个分析提出一个新的梯度裁剪方法, 效果比 Adam 还要好.

本文的改进

假设一个模型为
$f(x)=\mathbb{E}_{\xi}[f(x, \xi)]$
其中 $f$ 可以看成一个神经网络的损失函数, $x$ 是网络权重, $\xi$ 是样本, 目标是通过调整网络权重 $x$ 来使得期望误差最小. 注意到 $f (x)$ 很有可能是一个非凸的函数. 更多理论分析部分请参考原文.

由于梯度的某个分量可能非常大, 这对优化产生不利的影响, 一个常用的方法是梯度裁剪, 它通用的框架如下:

在这里插入图片描述

其中 $g_k$ 代表当前迭代中权重的梯度, 总共迭代次数为 $T$ , $m_k$ 为加权后的梯度. 关于第四行梯度裁剪, 自然地有两个方案, 分别是对梯度的范数进行裁剪 (Global CLIPping, GClip) 和按照梯度分量进行裁剪 (Coordinate-wise CLIPping, CClip), 二者的具体定义如下:
$\begin{aligned} &\operatorname{GClip}\left(\tau_{k}, m_{k}\right)=\min \left\{\frac{\tau_{k}}{\left\|m_{k}\right\|}, 1\right\} m_{k}, \text { for } \tau_{k} \in \mathbb{R}_{\geq 0} \text { or }\\ &\operatorname{CClip}\left(\tau_{k}, m_{k}\right)=\min \left\{\frac{\tau_{k}}{\left|m_{k}\right|}, 1\right\} m_{k}, \text { for } \tau_{k} \in \mathbb{R}_{\geq 0}^{d}. \end{aligned}$
其中 ${ } \min \{\}$ 可以简单理解为一种梯度的缩放系数, 可以针对整个梯度向量, 也可以针对梯度分量. $\tau_k$ 是一个阈值参数.

如果噪声分布是重尾的(或变化很大), 则可以通过选择较小的阈值来进行裁剪. 有关 GClip 的理论处理，请参见定理1和2. GClip 会保留更新方向并仅缩放其大小, 而 CClip 会分别缩放每个坐标, 并且可能不会保留方向. 但是, 如果噪声分布在坐标上有很大变化，则 CClip 可以利用这一点, 并且仅剪切那些较重的尾部并因此收敛更快 (请参见定理3).

但是, 要最佳地执行这种方法, 将需要调整所有 $\tau_d$ 阈值, 在深度学习中这个参数量可能非常大. 难以手动调整. 即使调整是可行的, 梯度噪声分布也可能是不稳定的, 并且会随着训练的进行而显着变化 (请参见图5).

为了解决以上问题, 本文提出自适应的梯度裁剪算法 (Adaptive Coordinate-wise CLIPping, ACClip):
$\operatorname{ACClip}\left(\tau_{k}, m_{k}\right)=\min \left\{\frac{\tau_{k}}{\left|m_{k}\right|+\epsilon}, 1\right\} m_{k}, \quad \tau_{k}^{\alpha}=\beta_{2} \tau_{k-1}^{\alpha}+\left(1-\beta_{2}\right)\left|g_{k}\right|^{\alpha}.$
它能够自适应的调整每个阈值 $\tau_k$ .

参考

H. Robbins and S. Monro. A stochastic approximation method. Annals of Mathematical Statistics, 22:400–407, 1951.
Diederik P Kingma and Jimmy Ba. ADAM: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

补充

强凸函数, L-smooth 函数:
https://blog.fangzhou.me/posts/20190217-convex-function-lipschitz-smooth-strongly-convex/

天在那边

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[解读] Why Adam Beats SGD for Attention Models

链接: https://arxiv.org/abs/1912.03194v1本文解释了为什么 Adam 优化方法比 SGD 要更有效, 简单说是因为 SGD 中的梯度范数的偏差太大导致的, 也就是说梯度向量的范数或者某些分量过大. 基于这个分析提出一个新的梯度裁剪方法, 效果比 Adam 还要好.相关的工作随机梯度下降 (SGD) 是用于训练神经网络的规范算法 (Robbins &...
复制链接

扫一扫