SGD，Adam等优化器整理使用

最新推荐文章于 2025-03-08 17:29:55 发布

滴滴滴'cv

最新推荐文章于 2025-03-08 17:29:55 发布

阅读量7.7k

点赞数 7

本文链接：https://blog.csdn.net/weixin_38842821/article/details/106933920

版权

优化器的比较

几种常见优化器
实验表明
如何选择优化算法

几种常见优化器

SGD（Stochastic Gradient Descent）

SGD基本上已经被弃用了，因为其效果和其他优化器相比实在差太多了，不仅速度比较慢，而且还容易停止训练。今天用mmdetection训练retinanet的时候，一直导致loss梯度爆炸，困惑了好几天，config查了查发现优化器使用的是SGD。。。人都是傻得。然后看了前辈的config，发现用的是Adam，今天已经在跑了，效果很好。

言归正传，SGD的确在GD上开创了一个先河。SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。
$x_{t+1} = x_t + \eta_t g_t$
$\theta = \theta -\eta \cdot \nabla_{\theta}J(\theta; x^{(i)};y^{(i)})$
这里的 $g_t$ 就是所谓的随机梯度,也就是说，虽然包含一定的随机性，但是从期望上来看，它是等于正确的导数的。用一张图来表示，其实 SGD 就像是喝醉了酒的 GD，它依稀认得路，最后也能自己走回家，但是走得歪歪扭扭。（红色的是 GD 的路线，偏粉红的是 SGD 的路线）。

在这里插入图片描述

缺点：
因为SGD像一个喝醉的人，需要迷迷糊糊走很多步才能收敛，没有明确的目标进行快速梯度下降。
优点：
实践中，人们发现，除了算得快，SGD 有非常多的优良性质。它能够自动逃离鞍点，自动逃离比较差的局部最优点，而且，最后找到的答案还具有很强的一般性（generalization），即能够在自己之前没有见过但是服从同样分布的数据集上表现非常好！

实际上，有大量的机器学习的问题使用的函数都满足这样的性质。比如 Orthogonal tensor decomposition，dictionary learning, matrix completion 等等。而且，其实并不用担心最后得到的点只是一个局部最优，而不是全局最优。因为实际上人们发现大量的机器学习问题，几乎所有的局部最优是几乎一样好的，也就是说，只要找到一个局部最优点，其实就已经找到了全局最优，比如 Orthogonal tensor decomposition 就满足这样的性质，还有小马哥 NIPS16 的 best student paper 证明了 matrix completion 也满足这样的性质。我觉得神经网络从某些角度来看，也是（几乎）满足的，只是不知道怎么证。

Mini-batch Gradient Descent

批梯度下降是介于两者之间的方法，可以用如下公式进行描述：

$\theta = \theta - \eta · \nabla_\theta J(\theta;x^{i:i+n};y^{i:i+n})$

它在一定程度上避免了前两者的弊端，是当前深度学习领域最常用的方法，常用SGD称呼。

改进版优化器

如何选择合适的学习率。学习率过小导致过慢收敛速度，过大则会影响收敛性能；
如何调整学习率。
不同参数学习率自适应问题。
如何跳出局部最优。

momentum动量

第一张是不带动量的，第二张是带了动量的。可以看出，梯度下降的快一点，可以加速SGD收敛。
在这里插入图片描述

Adagrad

它是一种自适应学习率的方法，对于低频率参数执行高学习率，对于高频参数执行地学习率。该特性使得它比较适合于处理稀疏数据。它公式描述如下：
$g_{t,i} = \nabla_{\theta_t} J(\theta_{t,i}) \\ \theta_{t+1,i} = \theta_{t,i} - \eta · g_{t,i}\\ \theta_{t+1,i} = \theta_{t,i} - \frac{\eta}{\sqrt {G_{t,ii} + \epsilon}} · g_{t,i}$

Adadelta

这个算法是对 Adagrad 的改进，
和 Adagrad 相比，就是分母的 G 换成了过去的梯度平方的衰减平均值，指数衰减平均值
在这里插入图片描述

RMSprop

RMSprop 是 Geoff Hinton 提出的一种自适应学习率方法。

RMSprop 和 Adadelta 都是为了解决 Adagrad 学习率急剧下降问题的。

梯度更新规则:

RMSprop 与 Adadelta 的第一种形式相同：（使用的是指数加权平均，旨在消除梯度下降中的摆动，与Momentum的效果一样，某一维度的导数比较大，则指数加权平均就大，某一维度的导数比较小，则其指数加权平均就小，这样就保证了各维度导数都在一个量级，进而减少了摆动。允许使用一个更大的学习率η）

在这里插入图片描述