深度学习: 学习率 (learning rate)

最新推荐文章于 2024-04-10 21:59:15 发布

qq_41978139

最新推荐文章于 2024-04-10 21:59:15 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习

原文链接：https://blog.csdn.net/liulina603/article/details/80604385

版权

20 篇文章 2 订阅

订阅专栏

学习率 (learning rate)，控制模型的 学习进度 ：

lr 即 stride (步长) ，即反向传播算法中的 ηη ：

ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn

在训练过程中，一般根据训练轮数设置动态变化的学习率。

Note：
如果是 迁移学习 ，由于模型已在原始数据上收敛，此时应设置较小学习率 (≤10−4≤10−4) 在新数据上进行微调。

学习率减缓机制

	轮数减缓	指数减缓	分数减缓
英文名	step decay	exponential decay	1/t1/t decay
方法	每N轮学习率减半	学习率按训练轮数增长指数插值递减	lrt=lr0/(1+kt)lrt=lr0/(1+kt) ，kk 控制减缓幅度，tt 为训练轮数

理想情况下曲线应该是 滑梯式下降 [绿线]：

曲线 初始时上扬 [红线]：
Solution：初始学习率过大导致振荡，应减小学习率，并 从头开始训练 。
曲线 初始时强势下降没多久归于水平 [紫线]：
Solution：后期学习率过大导致 无法拟合，应减小学习率，并 重新训练后几轮 。
曲线 全程缓慢 [黄线]：
Solution：初始学习率过小导致 收敛慢，应增大学习率，并 从头开始训练 。

关注