深度学习笔记(二十一)学习率衰减和局部最优问题

学习率衰减

考虑学习率不变的情况,梯度下降难以在最后达到收敛,如果采用学习率衰减方式呢?在刚开始能承受大步伐的梯度下降,随着梯度下降的进行,学习率衰减有利于最后收敛到一个趋近于最低点。
在这里插入图片描述
在1epoch内(1 pass through data):
α = α 0 1 + d e c a y _ r a t e ∗ e p o c h _ n u m \alpha=\frac{\alpha_0}{1+decay\_rate*epoch_\_num} α=1+decay_rateepoch_numα0
其他学习率衰减的方法:
α = 0.9 5 e p o c h _ n u m ∗ α 0 \alpha=0.95^{epoch\_num}*\alpha_0 α=0.95epoch_numα0

α = k e p o c h _ n u m ∗ α 0 \alpha=\frac{k}{\sqrt{epoch\_num}}*\alpha_0 α=epoch_num kα0

α = k t ∗ α 0 \alpha=\frac{k}{\sqrt{t}}*\alpha_0 α=t kα0

也有用离散值作为学习率的。

局部最优问题

在这里插入图片描述
在神经网络中,我们通常遇到的情况是右图中的鞍点,而不是左图中的局部最优。
想象你坐在马鞍上,那么你坐下的那一个点就是导数为0的点,
在这里插入图片描述
有关平稳段的问题
在这里插入图片描述

  • 平缓段让学习变得很慢(这是Momentum Adam RMSprop优化算法可以加速这个过程,尽早走出平稳段)
  • 不太可能困在不好的局部最优(前提:有大量的参数,J也是在高维空间)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.zwX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值