深度学习笔记（二十一）学习率衰减和局部最优问题

最新推荐文章于 2023-08-17 15:08:35 发布

Mr.zwX

最新推荐文章于 2023-08-17 15:08:35 发布

阅读量1k

点赞数 1

分类专栏：【深度学习/神经网络】Deep Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16763983/article/details/113262996

版权

【深度学习/神经网络】Deep Learning 专栏收录该内容

84 篇文章 38 订阅

订阅专栏

学习率衰减

考虑学习率不变的情况，梯度下降难以在最后达到收敛，如果采用学习率衰减方式呢？在刚开始能承受大步伐的梯度下降，随着梯度下降的进行，学习率衰减有利于最后收敛到一个趋近于最低点。
在这里插入图片描述
在1epoch内（1 pass through data）：
$\alpha=\frac{\alpha_0}{1+decay\_rate*epoch_\_num}$
其他学习率衰减的方法：
$\alpha=0.95^{epoch\_num}*\alpha_0$

$\alpha=\frac{k}{\sqrt{epoch\_num}}*\alpha_0$

$\alpha=\frac{k}{\sqrt{t}}*\alpha_0$

也有用离散值作为学习率的。

局部最优问题

在这里插入图片描述
在神经网络中，我们通常遇到的情况是右图中的鞍点，而不是左图中的局部最优。
想象你坐在马鞍上，那么你坐下的那一个点就是导数为0的点，

有关平稳段的问题

平缓段让学习变得很慢（这是Momentum Adam RMSprop优化算法可以加速这个过程，尽早走出平稳段）
不太可能困在不好的局部最优（前提：有大量的参数，J也是在高维空间）

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习笔记（二十一）学习率衰减和局部最优问题

考虑学习率不变的情况，梯度下降难以在最后达到收敛，如果采用学习率衰减方式呢？在刚开始能承受大步伐的梯度下降，随着梯度下降的进行，学习率衰减有利于最后收敛到一个趋近于最低点。在1epoch内（1 pass through data）：α=α01+decay_rate∗epoch_num\alpha=\frac{\alpha_0}{1+decay\_rate*epoch_\_num}α=1+decay_rate∗epoch_numα0其他学习率衰减的方法：α=0.95epoch_num∗α0\a
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.zwX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。