各种优化方法总结比较(BGD/sgd/momentum/Nesterov/adagrad/adadelta)

最新推荐文章于 2022-03-20 17:36:18 发布

Wenyu_1307

最新推荐文章于 2022-03-20 17:36:18 发布

阅读量442

点赞数

原文链接：https://www.cnblogs.com/qniguoym/p/8058186.html

版权

Batch gradient descent

定义：BGD 采用整个训练集的数据来计算 cost function 对参数的梯度：

缺点:
由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。

特点：

Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极小值。

SGD(Stochastic gradient descent)

定义：SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

缺点:
但是 SGD 因为更新比较频繁，会造成 cost function 有严重的震荡。BGD 可以收敛到局部极小值，当然 SGD 的震荡可能会跳到更好的局部极小值处。当我们稍微减小 learning rate，SGD 和 BGD 的收敛性是一样的。

Mini-batch gradient descent

定义：MBGD 每一次利用一小批样本，即 n 个样本进行计算，这样它可以降低参数更新时的方差，收敛更稳定，另一方面可以充分地利用深度学习库中高度优化的矩阵操作来进行更有效的梯度计算。

区别： SGD 的区别是每一次循环不是作用于每个样本，而是具有 n 个样本的批次

超参数设定值:
n 一般取值在 50～256

缺点:
Mini-batch gradient descent 不能保证很好的收敛性，

learning rate 如果选择的太小，收敛速度会很慢，如果太大，loss function 就会在极小值处不停地震荡甚至偏离。

有一种措施是先设定大一点的学习率，当两次迭代之间的变化低于某个阈值后，就减小 learning rate，不过这个阈值的设定需要提前写好，这样的话就不能够适应数据集的特点。

此外，这种方法是对所有参数更新时应用同样的 learning rate，如果我们的数据是稀疏的，我们更希望对出现频率低的特征进行大一点的更新。
另外，对于非凸函数，还要避免陷于局部极小值处，或者鞍点处，因为鞍点周围的error 是一样的，所有维度的梯度都接近于0，SGD 很容易被困在这里。

鞍点就是：一个光滑函数的鞍点邻域的曲线，曲面，或超曲面，都位于这点的切线的不同边。
例如这个二维图形，像个马鞍：在x-轴方向往上曲，在y-轴方向往下曲，鞍点就是（0，0）

Momentum

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。

momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

速度是梯度元素的累加，\epsion and \alpha越大，之前的梯度对现在方向的影响就越大。

Nesterov Momentum

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
各种优化方法总结比较(BGD/sgd/momentum/Nesterov/adagrad/adadelta)

Batch gradient descent定义：BGD 采用整个训练集的数据来计算 cost function 对参数的梯度：缺点:由于这种方法是在一次更新中，就对整个数据集计算梯度，所以计算起来非常慢，遇到很大量的数据集也会非常棘手，而且不能投入新数据实时更新模型。特点：Batch gradient descent 对于凸函数可以收敛到全局极小值，对于非凸函数可以收敛到局部极...
复制链接

扫一扫

Wenyu_1307 CSDN认证博客专家 CSDN认证企业博客

码龄6年

25: 原创

40万+: 周排名

96万+: 总排名

3万+: 访问

: 等级

589: 积分

27: 粉丝

18: 获赞

3: 评论

61: 收藏

私信

关注

热门文章

分类专栏

CMAKE入门 1篇
学习记录 20篇
面试 2篇
C++ 4篇
网络通信 1篇
算法试题 4篇
音视频 2篇
操作系统 1篇
机器学习 1篇

最新评论

CUDA中SM对线程块的调度
月满西楼@: 你好，你的文章开头内容：在cuda中，GPU中的SM（比如GTX650有两个SM处理器）被CPU调度器把线程块逐个分配到SM上，…… 原文不是CPU调度器，是GPU调度器。这两个不是一回事吧……
远监督方法（distance supervison）——标注语料库
说文科技: 一篇极不具备可读性的文章啊
Android 音视频开发（何俊林）阅读笔记（3）
无法预知: 有电子版吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。