调超参(lr,regularization parameter)经验整理

本文总结了调整学习率(Learning rate)和正则化参数(Regularization parameter λ)的经验。学习率的选择通常在1e-4到1e-1之间,简单模型可使用较大值。文章提到了通过增大batch size来维持学习率的策略,以及bold driver算法以动态调整学习率。对于正则化参数,建议先确定学习率,然后逐步调整λ以找到最佳的验证精度。
摘要由CSDN通过智能技术生成

Learning rate

最优值从1e-4到1e-1的数量级都碰到过,原则大概是越简单的模型的learning rate可以越大一些。
[https://blog.csdn.net/weixin_44070747/article/details/94339089]

其它:
增大batchsize来保持学习率的策略
[抛弃Learning Rate Decay吧 https://www.sohu.com/a/218600766_114877]

learning rate adaptation

bold driver algorithm \textcolor{orange}{\text{bold driver algorithm}} bold driver algorithm: after each epoch, compare the network’s loss L(t) to its previous

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值