神经网络优化（2）之学习率衰减

最新推荐文章于 2023-06-07 17:41:51 发布

Lucinda6

最新推荐文章于 2023-06-07 17:41:51 发布

阅读量1.2k

点赞数 2

分类专栏：深度学习之基础知识篇文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lucinda6/article/details/115837171

版权

深度学习之基础知识篇专栏收录该内容

8 篇文章 2 订阅

订阅专栏

学习率衰减

1.通常我们在进行模型训练时，刚开始的参数值离最优值的距离还是比较远的，所以我们会选择比较大的学习率（也叫步长），让它下降的快点；下降次数多了，快接近（收敛到）最优值的时候，会选择较小的学习率，让它走慢点，走稳一点。

但是，常常我们在训练模型的时候，只是设置了一个学习率的值，它不会变化；设置的太大的话，到后面，参数值会抖动的比较厉害，不能很稳；设置的太小，又会走的很慢，需要加大训练轮次，又浪费时间；所以，还是不如能动态调整的好。

2.常见的学习率衰减方法

①阶梯衰减

就是分段衰减，下降几次（跑几轮）衰减一下，一般都是成倍的衰减。
但这种不能很好的根据当前情况进行衰减，只是固定死了。

②指数衰减

在这里插入图片描述

β是设置的衰减率，通常设置为0.96-0.99之间；
α0是最初设置的学习率；
t为迭代次数

按迭代次数进行衰减

③自然指数衰减

在这里插入图片描述
参数和指数衰减的相同

指数衰减，自然指数衰减等一些衰减方式，都是根据迭代轮次来衰减的，这样就会造成频繁的衰减，会使得学习率降到0，导致模型更新几乎停止，所以要加入衰减间隔，不要一直衰减。

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
神经网络优化（2）之学习率衰减

学习率衰减1.通常我们在进行模型训练时，刚开始的参数值离最优值的距离还是比较远的，所以我们会选择比较大的学习率（也叫步长），让它下降的快点；下降次数多了，快接近（收敛到）最优值的时候，会选择较小的学习率，让它走慢点，走稳一点。但是，常常我们在训练模型的时候，只是设置了一个学习率的值，它不会变化；设置的太大的话，到后面，参数值会抖动的比较厉害，不能很稳；设置的太小，又会走的很慢，需要加大训练轮次，又浪费时间；所以，还是不如能动态调整的好。2.常见的学习率衰减方法①阶梯衰减就是分段衰减，下降几次（跑几
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。