batch size 训练时间_如何有效使用大batch训练?

大batch训练在深度学习中带来速度提升和并行度优化,但可能导致拟合问题和优化挑战。通过线性缩放学习率、学习率预热、初始化BN层γ为0和不衰减偏置等技巧,可以缓解这些问题。同时,针对多卡BN同步,可以通过聚合每个GPU的梯度和统计信息来实现。大batch训练的关键在于适当调整学习率策略,以保持模型精度。
摘要由CSDN通过智能技术生成

参考资料:

  • 参考1: Accurate, Large Minibatch SGD: training imagenet in 1 hour
  • 参考2: Imagenet training in minutes
  • 参考3: Don't decay the learning rate, increase the batch size
  • 参考4: Bag of tricks for Image Classification with Convolutional Neural Networks
  • 参考5: MegDet: A Large Mini-Batch Object Detector
  • 参考6: Width of Minima Reached by Stochastic Gradient Descent is Influenced by Learning Rate to Batch Size Ratio
  • 参考7: One weird trick for parallelizing convolutional neural networks

使用大batch有哪些优势?(即小batch的劣势)

  • 训练速度快, 提高并行度
  • 针对检测任务, 大batch正负样本更均衡
  • 可以有效更新BN层参数(网络使用BN的情况下)
  • 精度更高(后续会进一步解释)

使用大batch有哪些劣势?

  • 存在拟合问题, batch size越大, 拟合程度更低 -> 精度会低(一个可能原因是大batch训练, 不加任何trick, 会难以收敛, 只能调低learning rate, 但是降低learning rate后, 会导致精度变低)
  • 存在优化问题
  • 如何调整学习率?
  • 多卡BN如何同步?

如何解决大batch训练带来的问题?

参考4提
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值