优化器汇总

本文介绍了动量梯度下降(如指数加权平均)、AdaGrad、RMSprop和Adam等优化算法,强调了动量在调整学习率中的作用以及自适应学习率策略。AdamW则在Adam基础上加入了L2正则项以防止过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 动量梯度下降:(使用了指数加权平均的方法)
  • g t = ∇ θ J ( θ t ) g_t = \nabla_\theta J(\theta_t) gt=θJ(θt) —对 θ t \theta_t θt的导数
  • m t = β m t − 1 + ( 1 − β ) g t m_{t}=\beta m_{t-1}+(1-\beta)g_t mt=βmt1+(1β)gt —导数按比例的和,指数加权平均
  • θ t + 1 = θ t − α m t \theta_{t+1}=\theta_t- \alpha m_{t} θt+1=θtαmt —参数 θ \theta θ更新
  • m_{t+1}中有之前的梯度m_{t}作为动量,所以叫动量梯度下降
  1. AdaGrad
  • g t = ∇ θ J ( θ t ) g_t = \nabla_\theta J(\theta_t) gt=θJ(θt) —对 θ t \theta_t θt的导数
  • G t = ∑ i = 1 t g i 2 G_t=\sum_{i=1}^{t} g_i^2 Gt=i=1tgi2 —梯度累加平方和
  • θ t + 1 = θ t − α G t + ϵ g t \theta_{t+1}=\theta_t-\frac{\alpha}{\sqrt{G_t+\epsilon}}g_t θt+1=θtGt+ϵ αgt
  • 相当于将 g t G t + ϵ \frac{g_t}{\sqrt{G_t+\epsilon}} Gt+ϵ gt当作了梯度,这个梯度越来越小,相当于自适应学习率
  1. RMSprop
  • s t = β s t − 1 + ( 1 − β ) g t 2 s_t=\beta s_{t-1}+(1-\beta)g_t^2 st=βst1+(1β)gt2 —将 G t G_t Gt换为 s t s_t st,避免学习率过小
  • θ t + 1 = θ t − α g t s t + ϵ \theta_{t+1}=\theta_t-\alpha\frac{g_t}{\sqrt{s_t+\epsilon}} θt+1=θtαst+ϵ gt
  1. Adam
  • m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t=\beta_1 m_{t-1}+(1-\beta_1)g_t mt=β1mt1+(1β1)gt —动量(加权平均)
  • s t = β 2 s t − 1 + ( 1 − β 2 ) g t 2 s_t=\beta_2 s_{t-1}+(1-\beta_2)g_t^2 st=β2st1+(1β2)gt2 —加权均方和
  • θ t + 1 = θ t − α m t ^ s ^ t + ϵ \theta_{t+1}=\theta_t-\alpha \frac{\hat{m_t}}{\sqrt{\hat{s}_t}+\epsilon} θt+1=θtαs^t +ϵmt^
  • 结合了动量和自适应学习率的优点
  1. AdamW
  • θ t + 1 = θ t − α m t ^ s ^ t + ϵ − α l r 2 θ t \theta_{t+1}=\theta_t-\alpha \frac{\hat{m_t}}{\sqrt{\hat{s}_t}+\epsilon}-\alpha \frac{lr}{2} \theta_t θt+1=θtαs^t +ϵmt^α2lrθt —添加了L2正则项
  • AdamW 和 Adam 类似,但将权重衰减项添加 L2 正则项,防止过拟合
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值