梯度下降法(GD)与随机梯度下降法(SGD)的理解

最新推荐文章于 2025-03-13 19:07:29 发布

大鲨鱼冲鸭

最新推荐文章于 2025-03-13 19:07:29 发布

阅读量1.3w

点赞数 24

分类专栏：深度学习/机器学习文章标签：随机梯度下降法SGD 梯度下降法GD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Invokar/article/details/86767943

版权

深度学习/机器学习专栏收录该内容

37 篇文章

订阅专栏

本文深入浅出地讲解了梯度下降（GD）和随机梯度下降（SGD）算法，探讨了它们在深度学习中的应用及优缺点，同时对比了两者的计算复杂度，并讨论了学习率对算法性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言:
在深度学习的任务目标中，通常我们希望我们的学习结果能够在损失函数上得到一个较好的结果，即朝着损失函数最小的方向前进。
接下来我会用比较通俗易懂的语言来介绍GD、SGD

下一篇：通俗易懂理解（梯度下降）优化算法：Momentum、AdaGrad、RMSProp、Adam

梯度下降法(gradient descent)：
1. 数学理解
首先我们知道梯度方向是函数增长最快的方向，梯度的反方向是函数减少最快的方向，而梯度下降法就是往梯度反方向前进"一小步"来达到函数减少的效果。对于二维空间，其下降的方式大致为下图（这里我默认大家都理解等高线）：

接下来，我们来理解为什么是"一小步"，而不是"一大步"?
首先，我们知道，我们一般执行梯度下降是采用下面这个形式：

$x=x-\eta\nabla g$ 其中 $\eta$ 就是我们的学习率， $g$ 是梯度。
我们可以从一元函数的 $t a y l o r$ 公式展开的角度来理解这个问题： $f(x+\eta)\approx f(x)+f' (x)\eta+O(\eta^2)$ 其中 $f'(x)=\nabla g$ 。首先，可以从这个近似中（因为我们就只展开了两项，所以 $\eta$ 不能太大）得知 $\eta$ 足够小时才能近似成立，这也就回答了为什么我们要走"一小步"，此外，如果我们把 $\eta$ 换成 $-f'(x)\eta$ （此时 $(x-\eta f'(x)$ 就是我们常说的往负梯度方向进行更新一小步）然后有
$f(x-\eta f'(x))\approx f(x)\underbrace{-[f'(x)]^2\eta+O(\eta^2)}_{<=0}$ 从这里我们可以发现，如果我们往负梯度方向前进一小步，其函数值就会变小，因此可以获得两个我们合乎逻辑的信息：
1. 学习率 $\eta$ 我们一般设为 $> = 0$ 的原因
2. 梯度下降法确实能让我们目标函数减小

2. 图画理解

从图中我们可以看出，如果学习率较大，很有可能会陷入一个"局部最小值"而无法跳出

从图中我们可以看出，如果学习率较小，就需要很多迭代轮数

随机梯度下降法(Stochastic gradient descent)：
随机梯度下降法（SGD）的思想就是按照数据生成分布抽取 $m$ 个样本，通过计算他们梯度的平均值来更新梯度（梯度下降法采用的是全部样本的梯度平均值来更新梯度）。
NOTE: 一般来说我们在实现SGD一般采用的都是以上方法，即通过每次取一个batch_size大小的样本来更新梯度而不是每次仅取1个样本来更新。

1. SGD与GD的比较：
在深度学习中，目标函数通常是训练数据集中各个样本的损失函数平均，即 $\frac{1}{n}\sum_{i=1}^{n}f_i(x)$ 其中, $f_i(x)$ 是第i个样本所对应的损失函数， $f (x)$ 是目标损失函数。
通常，对于梯度下降法而言，其梯度的计算公式为 $\nabla f(x)=\frac{1}{n}\sum_{i=1}^{n}\nabla f_i(x)$ 其计算复杂度为 $O (n)$ 而随机梯度下降法其梯度的计算公式为 $\nabla f(x)=\frac{1}{m}\sum_{i=1}^{m}\nabla f_i(x)$ 其计算复杂度为 $O (1)$ ，因为 $m$ 不会随着 $n$ 的增大而明显改变，这就可以大大减少我们的计算复杂度。
2. batch_size的选择：
一般来说，batch_size也就是 $m$ 一般选择为2的整数次幂。
学习率总结
对于学习率，一般来说我们有如下共识：
1. 较小的学习率意味着收敛速度慢，需要很多的迭代步数；
2.较大的学习率不仅会让前面的 $t a y l o r$ 公式近似不成立，此外也可能因为太大而导致陷入"比较差"的局部最小值

[1] Ian Goodfellow,Yoshua Bengio,Aaron courville.深度学习[M].人民邮电出版社.
[2] 动手学习深度学习. 李沐

如果觉得我有地方讲的不好的或者有错误的欢迎给我留言，谢谢大家阅读（点个赞我可是会很开心的哦）~

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。