深度学习: 学习率 (learning rate)

深度学习: 学习率 (learning rate)

Introduction

学习率 (learning rate),控制 模型的 学习进度 : 

lr 即 stride (步长) ,即反向传播算法中的 ηη :

ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn

学习率大小

 学习率 大学习率 小
学习速度
使用时间点刚开始训练时一定轮数过后
副作用1.易损失值爆炸;2.易振荡。1.易过拟合;2.收敛速度慢。

学习率设置

在训练过程中,一般根据训练轮数设置动态变化的学习率。

  • 刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
  • 一定轮数过后:逐渐减缓。
  • 接近训练结束:学习速率的衰减应该在100倍以上。

Note: 
如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4) 在新数据上进行 微调 。

学习率减缓机制

 轮数减缓指数减缓分数减缓
英文名step decayexponential decay1/t1/t decay
方法每N轮学习率减半学习率按训练轮数增长指数插值递减lrt=lr0/(1+kt)lrt=lr0/(1+kt) ,kk 控制减缓幅度,tt 为训练轮数

把脉 目标函数损失值 曲线

理想情况下 曲线 应该是 滑梯式下降 [绿线]: 

  1. 曲线 初始时 上扬 [红线]: 
    Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练 。
  2. 曲线 初始时 强势下降 没多久 归于水平 [紫线]: 
    Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮 。
  3. 曲线 全程缓慢 [黄线]: 
    Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并 从头 开始训练 。

 

 

 

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值