三种梯度下降算法的比较和几种优化算法

最新推荐文章于 2024-06-19 22:53:09 发布

滴水无痕0801

最新推荐文章于 2024-06-19 22:53:09 发布

阅读量3k

点赞数 1

分类专栏：深度学习文章标签：梯度下降优化算法

本文链接：https://blog.csdn.net/huwenxing0801/article/details/85627245

版权

本文对比了三种梯度下降方法：Batch、Stochastic和Mini-batch Gradient Descent，重点介绍了Momentum、RMSprop和Adam优化算法的工作原理和优缺点。推荐在样本数量较大时使用Mini-batch并配合Adam优化器，以加速训练和避免震荡。

摘要由CSDN通过智能技术生成

博客已迁至知乎，本文链接：https://zhuanlan.zhihu.com/p/70910873

前言

这篇文章介绍了三种梯度下降方法的原理与优缺点，详细地讲解了Momentum、RMSprop和Adam优化算法，给出了使用建议。

三种梯度下降方法

1.Batch Gradient Descent，全部样本梯度下降一次，训练样本很大时，单次迭代需要时间太长。

2.Stochastic Gradient Descent，单个样本梯度下降一次，没有了向量化加速，效率比Batch Gradient Descent低，到达loss最低区域后还可能会跳出来，当然这也可以使它从局部最小值区域跳出来，可以使用学习率衰减来缓解这个问题。

3.Mini-batch Gradient Descent，部分样本梯度下降一次，上两个方法的折中，它可能不会收敛也可能不会在很小的范围内波动(同样可以用学习率衰减的方法来缓解这个问题)。

下面是loss的梯度图，三条线是三种梯度下降方法每下降一次的路线，蓝色是Batch Gradient Descent，紫色是Stochastic Gradient Descent，绿色是Mini-batch Gradient Descent。

进阶理解：
相对于GD，SGD能更有效的利用信息，特别是信息比较冗余的时候。举个例子，比如所有样本都需要向一个方向优化，GD优化一次需要对整个样本集迭代一次，而SGD只对一个样本优化就可以达到同样的效果。SGD相对于GD的另外一个优点是可以跳出局部最小值区域。
而mini-batch GD综合了两者的优点，既有了GD的向量化加速，还能像SGD更有效利用样本信息、可以跳出局部最小值区域的优点。另外，使用mini-batch，你还会发现不需要等待整个训练集被处理完就可以开始进行后续工作。

下面总结一下mini-batch的优点：
1.有向量化加速，加快了训练速度。
2.能有效利用样本信息，特别是信息比较冗余的时候。
3.有随机性，可以跳出局部最小值区域。
4.不需要等待整个训练集被处理完就可以开始进行后续工作。

下面是mini-batch的伪代码，中括号上标代表层数：
$\begin{aligned} 将样本分为n个mini \ batch\\ for \ \ \ t=1,...n:\\ &前向传播:\\ &\begin{cases} a^{[1]} = g(W^{[1]}X_t+b^{[1]})\\ a^{[2]} = g(W^{[2]}X_t+b^{[2]})\\ \ \ \ \ \ \ \ \ \ \ \ \ ...\\ a^{[l]} = g(W^{[l]}X_t+b^{[l]})\\ \end{cases}\\ &计算loss: L_总 = \frac{1}{n} \sum^l_{i=1}L(\hat{y}^{[i]},y^{[i]}) \\ &反向传播:\\ &\begin{cases} 计算各层梯度 dw和db \\ W^{[l]}=W^{[l]}-\alpha dW^{[l]} \\ b^{[l]}=b^{[l]}-\alpha db^{[l]} \\ \end{cases}\\ \end{aligned}$

用法总结

首先，如果训练集较小，直接使用Batch Gradient Descent梯度下降法，样本集较小就没必要使用mini-batch梯度下降法，这里的少是说小于差不多2000个样本，这样比较适合使用Batch Gradient Descent梯度下降法。

样本数目较大的话，一般的mini-batch大小为64到512，考虑到电脑内存设置和使用的方式，如果mini-batch大小是2的次方，代码会运行地快一些。64到512的mini-batch比较常见。

下面讲几种常见的梯度下降优化算法：

动量梯度下降法(Momentum)

Gradient descent with Momentum，这个梯度下降方法，基本的想法就是计算梯度的指数加权平均数，并利用它更新权重。直观来讲，就是给普通的梯度下降加了个“惯性”，就像开车，你不能开着开着想往右拐就瞬间拐到右边，它有个向前再往右的过程，换言之，你想改变行驶方向，是需要从之前的行驶方向慢慢改变的，并不能瞬间改变。同理，Momentum梯度下降也一样，比如这次迭代算出来你需要向a方向优化，但你并不能直接将你的方向改成a，需要综合考虑之前的方向。
下图左边是普通随机梯度下降，右边是Momentum随机梯度下降，可以看出后者加快了优化速度，抑制了震荡。

因为mini-batch相比标准的梯度下降来说，更新参数更快，所以收敛过程会有浮动(loss下降曲线)，使用动量梯度下降法可以减小该浮动，还能加速训练。

看下mini-batch GD with Momentum的公式：

$\begin{aligned} {\color{Red}{初始化每层的v_{dW}、v_{db}，}}&{\color{Red}{形状和dW、db一致，元素全为0}}\\ 将样本分为n个mini \ batch\\ for \ \ \ t=1,...n:\\ &前向传播：\\ &\begin{cases} a^{[1]} = g(W^{[1]}X_t+b^{[1]})\\ a^{[2]} = g(W^{[2]}X_t+b^{[2]})\\ \ \ \ \ \ \ \ \ \ \ \ \ ...\\ a^{[l]} = g(W^{[l]}X_t+b^{[l]})\\ \end{cases}\\ &计算loss: L_总 = \frac{1}{n} \sum^l_{i=1}L(\hat{y}^{[i]},y^{[i]}) \\ &反向传播:\\ &\begin{cases} 计算各层梯度 dw和db \\ {\color{Red}{v_{dW^{[l]}} = \beta v_{dW^{[l-1]}} + (1 - \beta) dW^{[l]}}} \\ \\ {\color{Red}{v_{db^{[l]}} = \beta v_{db^{[l-1]}} + (1 - \beta) db^{[l]}}} \\ \\ W^{[l]} = W^{[l]}$

最低0.47元/天解锁文章

滴水无痕0801

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
三种梯度下降算法的比较和几种优化算法

前言这篇文章介绍了三种梯度下降方法的原理与优缺点，详细地讲解了Momentum、RMSprop和Adam优化算法，给出了使用建议。三种梯度下降方法1.Batch Gradient Descent，全部样本梯度下降一次，训练样本很大时，单次迭代需要时间太长。2.Stochastic Gradient Descent，单个样本梯度下降一次，没有了向量化加速，效率比Batch Gradient...
复制链接

扫一扫

专栏目录