深度学习的优化器总结

最新推荐文章于 2024-06-08 09:29:07 发布

绛洞花主敏明

最新推荐文章于 2024-06-08 09:29:07 发布

阅读量613

点赞数 1

分类专栏：深度学习 Pytorch框架

原文链接：http://www.pianshen.com/article/576062201/

版权

52 篇文章 6 订阅

订阅专栏

30 篇文章 5 订阅

订阅专栏

深度学习（一般指深度神经网络DNN）有几个关键的要素：训练集，网络结构，损失函数（目标函数），优化方法。这里记录一下优化方法相关知识点吧。

训练DNN时，我们的目标是更新网络参数以使得损失函数最小化，optimizer就是更新参数的方法。不同的optimizer都遵循一个基本原则：
在这里插入图片描述
$\eta$ 是学习率，也就是每次参数更新的程度。根据是否改变学习率，可以将optimizer分为两大派别。

1) BGD：Batch gradient descent，即在整个训练集上forward和backward一次，然后更新一次参数。缺点：收敛速度慢，大量重复计算。

2) SGD：Stochastic gradient descent，即在每一个训练样本上forward和backward一次，然后更新一次参数。优点：收敛速度快；缺点：波动大。

3) mini-batch SGD：将训练集分为小的批次（batch），在每一个批次上forward和backward一次，然后更新一次参数。中和了前两个。一般所说的SGD即为mini-batch SGD。

4) momentum SGD 动量：

更新当前参数时既考虑当前梯度，又考虑之前的梯度（称之为动量）。
在这里插入图片描述
5) Nesterov SGD 牛顿动量:

添加了校正因子的momentum, 即先用旧的动量更新一遍参数，然后再依据momentum的流程走。

在这里插入图片描述
上述两种动量方法都加速了学习速率，牛顿法添加了校正因子，进一步优化了原始动量方法。

上述方法学习率均固定，然而选择学习率又是很困难的，太小会使得收敛速度太慢，训练花费时间太长，太大又会产生波动（可能会跨过最优点）。可以参考下面两张图：
在这里插入图片描述
1) AdaGrad SGD：

每次迭代都会改变学习率，其目的是在平缓的地方使用大学习率，在陡峭的地方使用小学习率，使得收敛速度快的同时防止波动。r 是更新学习率时用的，由公式可知，越平缓，梯度g越小，r越小，则学习率增大（实现平缓处用大梯度）。\sigma为一个小常数，为了防止分母为0。

其中学习率的改变取决于梯度平方的累积（梯度累积为指数累积）（第二个公式）。
在这里插入图片描述
2) RMSProp SGD:

与AdaGrad类似，改进梯度累积为指数衰减的移动平均，对非凸函数友好。 $\rho$ 为衰减指数，指的是对于遥远的过去信息使用量较小。
在这里插入图片描述
3) RMSProp + Nesterov

RMSProp也可以结合动量，既使用了动量又改变了学习率，从两个方面改进优化算法。公式如下，红色部分是RMSProp梯度衰减累积部分，黑色是牛顿动量部分。
在这里插入图片描述
4) Adam SGD (Momentum + RMSProp):

结合了momentum和RMSProp，同时也引入了修正项（即衰减的指数梯度累积，和衰减的动量累积）
在这里插入图片描述
一般来说，使用动量且改变学习率，会使得收敛加速且减少波动，因此，adam SGD较为流行。

关注

专栏目录