SGD，Adagrad，Adadelta，Adam等优化方法总结和比较

最新推荐文章于 2024-04-23 23:55:42 发布

huxcai

最新推荐文章于 2024-04-23 23:55:42 发布

阅读量5.2k

点赞数 6

分类专栏：深度学习文章标签： dl

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

翻译总结： http://ycszen.github.io/2016/08/24/SGD%EF%BC%8CAdagrad%EF%BC%8CAdadelta%EF%BC%8CAdam%E7%AD%89%E4%BC%98%E5%8C%96%E6%96%B9%E6%B3%95%E6%80%BB%E7%BB%93%E5%92%8C%E6%AF%94%E8%BE%83/#comments

原文： http://sebastianruder.com/optimizing-gradient-descent/

SGD，Adagrad，Adadelta，Adam等优化方法总结和比较

发表于 2016-08-24 | 分类于技术笔记 | 2条评论 | 阅读次数 2543

前言

本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。

SGD

此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini-batch gradient descent。
SGD就是每一次迭代计算梯度，然后对参数进行更新，是最常见的优化方法了。
此处主要说下SGD的缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）

选择合适的learning rate比较困难
对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了
SGD容易收敛到局部最优，并且容易被困在鞍点

Momentum

momentum是模拟物理里动量的概念。它在相关方向加速SGD，抑制振荡，从而加快收敛
在梯度指向同一方向的维度，momentum项增加;
在梯度改变方向的维度，momentum项减少更新

Image1:不加momentum项的SGD

Image2:带momentum项的SGD

Nesterov

nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度

Image3

momentum首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)，nesterov项首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)，计算梯度然后进行校正(绿色梯向量)

其实，momentum项和nesterov项都是为了使梯度更新更加灵活，有不同情况有针对性。但是，人工设置一些学习率总还是有些生硬，接下来介绍几种自适应学习率的方法

Adagrad

此方法能对不常见的参数进行较大的更新，对于常见参数更新较小，不用手动调节学习率
缺点：
因为公式中分母上会累加梯度平方，这样在训练中持续增大的话，会使学习率非常小，甚至趋近无穷小

Adadelta

Adadelta是对Adagrad的扩展。
Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是计算对应的平均值。
Adadelta甚至不用设置默认值。

RMSprop

RMSprop类似于Adadelta

Adam

Adam(Adaptive Moment Estimation)加上了bias校正和momentum，在优化末期，梯度更稀疏时，它比RMSprop稍微好点

经验之谈

对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值
SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠
如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。
Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多。

最后展示两张可厉害的图，一切尽在图中啊，上面的都没啥用了… …

Image4:损失平面等高线

Image5:在鞍点处的比较

huxcai

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
SGD，Adagrad，Adadelta，Adam等优化方法总结和比较

翻译总结：http://ycszen.github.io/2016/08/24/SGD%EF%BC%8CAdagrad%EF%BC%8CAdadelta%EF%BC%8CAdam%E7%AD%89%E4%BC%98%E5%8C%96%E6%96%B9%E6%B3%95%E6%80%BB%E7%BB%93%E5%92%8C%E6%AF%94%E8%BE%83/#comments原文：ht
复制链接

扫一扫