深度学习笔记(2)：2.9 学习率衰减 | 2.10 局部最优问题

起个名字好难.JPG

于 2018-08-04 22:34:21 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习文章标签： learning rate decay 鞍点局部最优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kkkkkiko/article/details/81411530

版权

2.9 学习率衰减

今天来讲一下关于学习率衰减(learning rate decay)的问题。首先说一下为什么要衰减学习率，如下图所示：

假设我们使用mini-batch梯度下降法，之前我们已经讲过它的一些特点，比如路径曲折不直接、有噪音(路径曲折不直接和有噪音是一回事)、在最优值附近波动不收敛。也许在刚开始学习时，我们可以承受较大的步长带来的代价，但是随着不断学习至开始收敛时，通过慢慢的减少学习率，减少步长，我们可以使梯度在最优值附近更小的区域内波动，使结果更准确稳定。

我们在之前的博文中讲过1 epoch表示遍历一次完整的数据集，我们希望学习率能够随着训练过程不断减少，而epoch可以作为这个参数影响学习率的大小，因为epoch的数值表示训练已经遍历了数据集几次。

在这里，我们令 $\alpha =\frac{1}{1+decayrate*epochnum}\alpha _{0}$

最低0.47元/天解锁文章

起个名字好难.JPG

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。