【深度学习实战(39)】SGD,Adam,Adawm区别

SGD(Stochastic Gradient Descent )

随机梯度下降是最简单的优化器,它采用了简单的梯度下降法,只更新每一步的梯度,但是它的收敛速度会受到学习率的影响。
优点: 简单性,在优化算法中没有太多的参数需要调整,通过少量的计算量就可以获得比较好的结果。
缺点: 在某些极端情况下容易受到局部最小值的影响,也容易出现收敛的问题。

Adam(Adaptive Moment Estimation)(L2 regularization)

Adam 是一种更为先进的优化算法,它结合了动量(Momentum)和自适应学习率调整的概念。除了像 MBGD 那样使用小批量数据计算梯度外,Adam 还引入了一阶矩(first moment)和二阶矩(second moment)的指数衰减移动平均,以便更好地控制学习率。
优点:

它融合了Momentum优化方法和RMSProp优化方法,可以帮助优化算法提高精度。
它还可以自动调整学习率,因此不需要太多参数调整。
缺点: 它需要消耗更多的内存,而且可能会出现收敛问题。

AdamW (Adaptive Moment Estimation)(weight decay)

AdamW是Adam的变体,用来处理大型数据集,它以一定的比率来缩减模型参数的梯度,从而减少计算量,提高训练速度。
优点:

它可以自动调整学习率,而不需要太多参数调整,降低了冗余性。
它也可以自动调整权重衰减系数,使模型更加稳定,避免过拟合。
缺点: 学习率容易受到网络噪声的影响,从而影响优化过程。可能错过全局最优解。

因此,SGD和Adam是构建模型优化的常用方法,而AdamW是他们的变体,用于处理大型数据集

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BILLY BILLY

你的奖励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值