2019-05-29(自适应学习率)

前言

通常我们所说的学习率变换册率是针对参数更新时梯度前面的系数而言的,而非全局学习率(也可以根据相关算法来调节),我们所要调节的学习率由全局学习率而来,是参数更新的重要系数。

  • AdaGrad
    输入参数:全局学习率、初始化参数、小常量(避免分母为0,例如)
    算法过程:
    来源
    13298870-1f85d3647e01e417
    image

    总结:
    • 优点
      • 随着迭代次数的增大r越来越大,r位于分母上,所以一般来说AdaGrad算法开始时是激励收敛,后期就是惩罚收敛,速度会越来越慢。
      • AdaGrad符合训练初期参数离最优比较远(适合大的学习率),训练后期参数离最优较近(适合小的学习率)的客观规律
      • 针对不同的参数AdaGrad给出不一样的学习速率
    • 缺点
      对于深度学习模型而言,从一开始就累积梯度平方会导致有效学习率过早和过量减小。AdaGrade在凸优化问题中表现不错,但不是全部的优化问题。
  • RMSProp
    需要参数:全局学习率、衰减因子、初始化参数、小常量
    来源
    13298870-30898268e6857e98

    总结:
    RMSProp是AdaGrad的一次改进(主要是红框内)相比AdaGrad它在非凸情况下效果更好
  • Adam
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值