梯度下降（随机梯度下降、批量梯度下降、小批量梯度下降）

最新推荐文章于 2024-02-15 22:54:47 发布

Recheriring

最新推荐文章于 2024-02-15 22:54:47 发布

阅读量646

点赞数

分类专栏：强化学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44614636/article/details/131587446

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度下降（Gradient Descent, GD）

问题：一个损失函数 $L(\omega, b)$ ，为找到合适的参数 $\omega, b$ 使得损失函数值达到最小

方法：梯度下降

1. 随机梯度下降（Stochastic Gradient Descent, SGD）

随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。

因此可知，对于凸优化问题，每一次更新不能保证是朝着全局最优点前进，但是总体的方法仍然是朝着全局最优的方向前进。

相对于批量梯度下降，这种方法单次更新时间更快、存储要求小，且非常适合于增量式更新（假设新的样本源源不断的加入）。

对于非凸最优化问题，这种方法通常能够更快的收敛到一个局部最优解。

2. 批量梯度下降（Batch Gradient Descent, BGD）

每次参数更新时，根据所有样本来计算梯度，即所有样本都参与了loss值的计算。

对于凸优化问题这种方法可以找到全局最优解。
因此，理论上而言这种情况下，每一步都是朝着全局最优点靠近。
对于样本量不大的情况，这种方式的收敛速度会很快。
但是对于样本量大的情况，由于每一次样本更新所有样本都参与计算，单次更新的时间更长、需要的存储空间也更大，所以这种方法适用度下降。

对于非凸优化问题，BGD也无法保证能够在全局最优点收敛，且在大样本的情况下，收敛到局部最优的时间非常的长。

3. 小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

在每次需要计算更新的时候随机抽取一小批样本，这种变体叫做小批量随机梯度下降。

由于SGD单次只采用一个样本来参数进行更新，因此可能需要通过大量的更新到达局部最优点。因此作为BGD和SGD的中间方案，提出了小批量梯度下降方法（MBGD)。

MBGD方法将所有样本分为多个min-batch（每个mini batch的样本数量大小为 n ），每一次采用 n 个样本进行参数更新。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。