论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

为了加快训练的速度(增大batch size)同时保证准确率,论文提出了一个trick:让学习率lr随着batch size线性增大(Linear Scaling Rule),使得训练时的batch size在[64(2^6), 8192(2^13)]的区间范围变化时可以得到了几乎不变的准确率。

上述linear scaling rule是基于一个很强的假设:单个mini-batch内的各样本的梯度相同。在训练的开始阶段,梯度差异大,假设完全不成立,因此论文提出了gradual warmup机制。gradual warmup在训练的5个epoch使用0.1的学习率(对应batch size=256时的学习率),然后慢慢提高增加到linear scaling rule对应的学习率。

更多详细信息可参考:https://www.zhihu.com/question/60874090/answer/181413785

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值