【深度学习实战（39）】SGD，Adam，Adawm区别

BILLY BILLY

于 2024-06-04 20:51:22 发布

阅读量493

点赞数 8

分类专栏：深度学习基础文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51579041/article/details/139453246

版权

深度学习基础专栏收录该内容

49 篇文章 3 订阅

订阅专栏

SGD（Stochastic Gradient Descent ）

随机梯度下降是最简单的优化器，它采用了简单的梯度下降法，只更新每一步的梯度，但是它的收敛速度会受到学习率的影响。
优点：简单性，在优化算法中没有太多的参数需要调整，通过少量的计算量就可以获得比较好的结果。
缺点：在某些极端情况下容易受到局部最小值的影响，也容易出现收敛的问题。

Adam（Adaptive Moment Estimation）(L2 regularization)

Adam 是一种更为先进的优化算法，它结合了动量（Momentum）和自适应学习率调整的概念。除了像 MBGD 那样使用小批量数据计算梯度外，Adam 还引入了一阶矩（first moment）和二阶矩（second moment）的指数衰减移动平均，以便更好地控制学习率。
优点：

它融合了Momentum优化方法和RMSProp优化方法，可以帮助优化算法提高精度。
它还可以自动调整学习率，因此不需要太多参数调整。
缺点：它需要消耗更多的内存，而且可能会出现收敛问题。

AdamW （Adaptive Moment Estimation）（weight decay）

AdamW是Adam的变体，用来处理大型数据集，它以一定的比率来缩减模型参数的梯度，从而减少计算量，提高训练速度。
优点：

它可以自动调整学习率，而不需要太多参数调整，降低了冗余性。
它也可以自动调整权重衰减系数，使模型更加稳定，避免过拟合。
缺点：学习率容易受到网络噪声的影响，从而影响优化过程。可能错过全局最优解。

因此，SGD和Adam是构建模型优化的常用方法，而AdamW是他们的变体，用于处理大型数据集。

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【深度学习实战（39）】SGD，Adam，Adawm区别

【深度学习实战（39）】SGD，Adam，Adawm区别
复制链接

扫一扫

专栏目录

BILLY BILLY CSDN认证博客专家 CSDN认证企业博客

码龄4年

152: 原创

1385: 周排名

8078: 总排名

14万+: 访问

: 等级

3390: 积分

1万+: 粉丝

1606: 获赞

255: 评论

1685: 收藏

私信

关注

热门文章

分类专栏

最新评论

【模型剪枝】基于DepGraph(依赖图)完成复杂模型的一键剪枝
qq_45912536: 我也一样但改了模型保存方法还是不行
【AI论文阅读】LaneNet：一种实例分割方法的端到端车道线检测模型
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【AI论文阅读】smoke：keypoint-based 单目3D目标检测模型
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【YOLOv8 多任务版本】v8多任务（1）：论文详解
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【YOLOV8 轻量化改进】使用高效网络EfficientNetV2替换backbone
你会c语言吗？: 博主我将其用于目标检测，然后一直map，前20轮基本都是0，最后0.03左右，这种情况是怎么回事

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BILLY BILLY 你的奖励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。