学习率(learning rate)

原文:https://blog.csdn.net/JNingWei/article/details/79243800 

Introduction
学习率 (learning rate),控制 模型的 学习进度 : 

lr 即 stride (步长) ,即反向传播算法中的 ηη :


学习率大小

学习率设置
在训练过程中,一般根据训练轮数设置动态变化的学习率。

刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
一定轮数过后:逐渐减缓。
接近训练结束:学习速率的衰减应该在100倍以上。
Note: 
如果是 迁移学习 ,由于模型已在原始数据上收敛,此时应设置较小学习率 (≤10−4≤10−4) 在新数据上进行 微调 。

学习率减缓机制
 

把脉 目标函数损失值 曲线
理想情况下 曲线 应该是 滑梯式下降 [绿线]: 

曲线 初始时 上扬 [红线]: 
Solution:初始 学习率过大 导致 振荡,应减小学习率,并 从头 开始训练 。
曲线 初始时 强势下降 没多久 归于水平 [紫线]: 
Solution:后期 学习率过大 导致 无法拟合,应减小学习率,并 重新训练 后几轮 。
曲线 全程缓慢 [黄线]: 
Solution:初始 学习率过小 导致 收敛慢,应增大学习率,并 从头 开始训练 。


[1] 解析卷积神经网络—深度学习实践手册 
[2] 调整学习速率以优化神经网络训练 
[3] 如何找到最优学习率


 

神经网络的学习率是一个重要的超参数,它决定了模型在每次参数更新时所乘以的步长大小。选择合适的学习率是训练神经网络的关键之一,它会影响模型的收敛速度和性能。 然而,并没有一个通用的学习率适用于所有问题和模型。选择合适的学习率通常需要进行一些实验和调整。 以下是一些常见的学习率选择策略: 1. 固定学习率:在训练过程中保持学习率恒定不变。可以根据经验或者尝试多个值来选择一个合适的固定学习率。 2.习率衰减(learning rate decay):在训练过程中逐渐降低学率,使得模型在开始时可以更快地收敛,然后逐渐化参数调整。常见的衰减策略包括按照固定的速率线性或指数衰减学习率。 3. 自适应学习率方法:使用自适应算法来根据模型在训练过程中的表现自动调整学习率。常见的自适应方法包括Adagrad、RMSprop、Adam等。 对于具体问题和模型,最佳学习率的选择可能会有所不同。通常建议从一个较小的学习率开始训练,并观察模型的性能和收敛情况。如果模型的性能没有明显改善或收敛速度过慢,可以尝试增大学习率。反之,如果出现震荡或不稳定的情况,可以尝试减小学习率。 需要注意的是,选择合适的学习率是一个迭代的过程,需要进行多次试验和调整。利用交叉验证或验证集上的性能指标来评估不同学习率下模型的表现,找到最佳的学习率设置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值