深度学习常见的优化算法

ZATuTu丶

已于 2022-06-09 13:26:16 修改

阅读量3k

点赞数 6

分类专栏： pytroch 文章标签：深度学习算法机器学习

于 2022-06-09 01:08:16 首次发布

本文链接：https://blog.csdn.net/qq_41296039/article/details/125194889

版权

pytroch 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

文章目录

1.梯度下降算法（batch gradient descent BGD)
2.随机梯度下降法（Stochastic gradient descent SGD)
3.小批量梯度下降(Mini-batch gradient descent MBGD)
4.动量法
5.AdaGrad
6.RMSProp
7.Adam

1.梯度下降算法（batch gradient descent BGD)

每次迭代都需要将样本都送入，这样做的好处是每次迭代都顾及了全部样本，做到了全局最优化算法。
关键词：全局优化

2.随机梯度下降法（Stochastic gradient descent SGD)

针对BGD速度过慢的问题，提出了随机梯度下降算法，随机梯度下降算法是从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次。在样本量较大的情况下，可能不用训练完样本就可以获得一个损失值在可接受范围内的模型。
torch.optim.SGD()

3.小批量梯度下降(Mini-batch gradient descent MBGD)

上面提到SGD拥有更快的速度，但是也可能存在一定问题，对于单个样本的训练可能会带来很多噪声，这使得SGD并不是每次迭代都向着最优的方向，因此在刚开始训练时收敛速度可能会很快，但是训练一段时间后速度就会变慢。基于上面的问题又提出了小批量梯度下降算法，它是每次从样本中随机抽取一小批进行训练的，而不是一组，这样可以保证效果且保证速度。

4.动量法

mini-batch SGD算法虽然能够带来很好的训练速度，但是在到达模型最优的时候并不总是真正意义上的最优（可能陷入了局部最优的情况），而是在最优点附近徘徊。
另外一个问题是mini-batch SGD 需要我们挑选一个合适的学习率，当我们采用较小学习率时可能会导致网络的收敛速度太慢；当我们采用较大的学习率时，可能会导致训练过程中优化的幅度跳过函数最优点。我们所希望的仅仅是网络在优化的时候损失函数有一个很好的收敛速度同时摆动的幅度不至于过大。
所以动量法Momentum优化器刚好能解决上述所面临的问题。他通过基于梯度的移动指数加权平均，对网络的参数进行了平滑处理，让梯度的摆动幅度更加平缓。
$0.8v-0.2\nabla w,其中\nabla w表示前一次的梯度$
$w=w-\alpha v,\alpha表示学习率$

关键词：对梯度进行平滑处理，防止振幅过大。

5.AdaGrad

AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加之后再进行开方操作，用全局学习率除以这个数字，作为学习率的动态更新，从而达到动态学习率的效果。（前面学习率大，后面学习率小）
$history\_gradent+(\nabla w)^{2}$
$=w-\frac{\alpha}{\sqrt {gradent} +\psi}\nabla w,其中\psi为常数，为了保证数值稳定约设为10^{-7}$

关键词：自适应学习率

6.RMSProp

Momentum算法中，虽然初步解决了优化中摆动幅度过大的问题，为了进一步优化损失函数在更新过程中摆动幅度过大的问题，并且为了进一步加快函数的收敛速度，RMSProp算法对参数的梯度采取了加权平方的算法。
$0.8history\_gradent+0.2(\nabla w)^{2}$
$w=w-\frac{\alpha}{\sqrt{gradent}+\psi}\nabla w$

关键词：学习率加权

7.Adam

Adam(Adaptive Moment Estimation)算法是将Momentum算法和RMSProp算法结合起来使用的一种算法，能够防止梯度的摆动幅度过大，同时能够加快收敛速度。

1.需要初始化梯度的累积量和平方累积量
$v_w=0,s_w=0$
2.第t轮训练中，我们首先可以计算得到Momentum和RMSProp的参数更新:
$v_w=0.8v+0.2\nabla w$ ,Momentum计算的梯度
$s_w=0.8s+0.2(\nabla w)^{2}$ ,RMSProp计算的梯度
3.对其中值进行处理后，得到：
$w=w-\alpha \frac{v_w}{\sqrt{s_w}+\psi}$