![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习率衰减
我就是超级帅
为中华崛起而读书
展开
-
pytorch必须掌握的的4种学习率衰减策略
梯度下降算法需要我们指定一个学习率作为权重更新步幅的控制因子,常用的学习率有0.01、0.001以及0.0001等,学习率越大则权重更新的越快。一般来说,我们希望在训练初期学习率大一些,使得网络收敛迅速,在训练后期学习率小一些,使得网络更好的收敛到最优解。 下图展示了随着迭代的进行动态调整学习率的4中策略曲线。上述4种策略为衰减类型:指数衰减、固定步长的衰减、多步衰减、余弦衰减。下面逐一介绍其性质,及pytorch对应的使用方式,需要注意学习率衰减策略很大程度上是依赖于经验与具体问题的,不能照搬参数。原创 2020-09-10 17:17:44 · 2145 阅读 · 1 评论 -
学习率衰减方法之自定义衰减方法
keras中默认的方法lr_reduce = tf.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=10, ver原创 2020-09-10 11:48:51 · 587 阅读 · 0 评论 -
学习率衰减之余弦退火(CosineAnnealing)
1 引言当我们使用梯度下降算法来优化目标函数的时候,当越来越接近Loss值的全局最小值时,学习率应该变得更小来使得模型尽可能接近这一点,而余弦退火(Cosine annealing)可以通过余弦函数来降低学习率。余弦函数中随着x的增加余弦值首先缓慢下降,然后加速下降,再次缓慢下降。这种下降模式能和学习率配合,以一种十分有效的计算方式来产生很好的效果。在论文Stochastic Gradient Descent with Warm Restarts中介绍主要介绍了带重启的随机梯度下降算法(SGDR),其原创 2020-09-09 21:11:25 · 79422 阅读 · 6 评论