每天3分钟,彻底弄懂神经网络的优化器(八)RMSprop

1. RMSprop算法的提出

RMSProp(Root Mean Square Propagation)算法由 Geoffrey Hinton 在他的 Coursera 课程《Neural Networks for Machine Learning》1中提出,该课程首次发布于2012年。RMSProp 算法是一种自适应学习率的优化方法,它通过使用梯度的平方的指数移动平均值来调整每个参数的学习率,从而加快学习速度并减少训练过程中的震荡。这种方法特别适合处理非凸优化问题,并且在深度学习中得到了广泛的应用。

2. RMSprop算法的原理

RMSprop(Root Mean Square Propagation)是一种自适应学习率的优化算法,它是为了解决Adagrad算法中学习率递减导致的问题而提出的。RMSprop通过使用指数加权移动平均来调整每个参数的学习率,使得学习率的调整更加平滑。

RMSprop的更新规则如下:

  1. 初始化参数 θ \theta θ,设置学习率 η \eta η,衰减系数 ρ \rho ρ(通常设为0.9),以及数值稳定性的小常数 ϵ \epsilon ϵ(通常设为 1 e − 8 1e-8 1e8 );
  2. 在每次迭代中,计算参数 θ \theta θ 的梯度 g g g
  3. 更新累积平方梯度的指数加权移动平均 r r r
    r = ρ ⋅ r + ( 1 − ρ ) ⋅ g 2 r = \rho \cdot r + (1 - \rho) \cdot g^2 r=ρr+(1ρ)g2
  4. 计算参数更新量:
    Δ θ = η r + ϵ ⋅ g \Delta\theta = \frac{\eta}{\sqrt{r + \epsilon}} \cdot g Δθ=r+ϵ ηg
  5. 更新参数 $ \theta $:
    θ = θ − Δ θ \theta = \theta - \Delta\theta θ=θΔθ

3. RMSprop算法的主要特点

RMSprop算法的优点包括:

  • 自适应学习率调整,不需要手动设置学习率;
  • 适合处理非平稳目标函数和循环神经网络(RNN);
  • 可以缓解梯度消失或梯度爆炸的问题

RMSprop算法的缺点包括:

  • 需要调整新的超参数——衰减速率 ρ \rho ρ;
  • 依然依赖于全局学习速率 $ eta$,如果设置不当,可能会导致模型训练效果不佳。

在实际应用中,建议从较小的全局学习速率开始尝试,并逐步增加以找到最佳性能。同时,可以尝试不同的衰减速率 ρ \rho ρ 以找到最适合模型的设置。

4. RMSprop和AdaGrad的区别

最大的改进在于累积梯度的处理方式:

  • AdaGrad: 累积所有过去的梯度平方(无遗忘因子)。这意味着它会不断地累积梯度信息,导致学习率随着时间逐渐减小,可能在后期变得过小,以至于无法继续有效更新;

  • RMSprop: 使用指数加权平均来累积过去的梯度平方(有遗忘因子)。这种方式使得算法对最近的梯度给予更多的权重,而对旧的梯度逐渐“遗忘”,从而避免了学习率过快减小的问题。
    请添加图片描述

参考

[1] Neural Networks for Machine Learning

欢迎关注我的GitHub和微信公众号,来不及解释了,快上船!

GitHub: LLMForEverybody

仓库上有原始的Markdown文件,完全开源,欢迎大家Star和Fork!请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值