深度学习成长之路(二)学习率(learning rate)的知识汇总

首先是找到的三篇不错的博客,看完收获很多。链接如下:

机器之心 学习速率设置指南

简书 batchsize和lr的笔记

雷锋网 抛弃learning rate decay

学习率(learning rate)属于调参过程的一部分,目前常见的是通过设置schedule,根据特定的规则更新学习率。常用的方式就是learning rate decay。当然在最近提出了增大batchsize来保持学习率的策略,在第三篇博客可以进行了解。

接下来,是自己读这三篇博客和论文的理解。

1、学习率属于需要设置的关键超参数,在最小化训练网络的损失函数时,学习率缩放了权重更新的幅度。学习率太低,训练速度会很慢;学习率太高,有可能梯度下降过程中直接跳过了最低点,训练变得发散。

2、新知识点损失函数地图(loss landscape) 论文地址。 用来可视化损失函数的曲率,得到三维立体图形,研究多种因素(网络架构,各种超参数,优化器等)对损失函数形态的影响。

3、设置最优的学习率,是为了损失函数下降的最快。一共有三种阶段,损失函数基本不动(lr低),损失函数下降最

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值