[深度学习笔记一] batch大小对训练的影响

  1. batch的选择,决定的是梯度下降的方向。
  2. 对小的数据集,可以采用Full Batch Size,这样可以更加准确地找出最佳的梯度方向。但是不同的权重的梯度值差距巨大,因此选择全局学习率困难。可以使用Rprop单独更新各权值
  3. 对大的数据集,全部载入数据,会被内存大小限制,Rprop会因为采样差异性,导致梯度互相抵消。
  4. 在合理范围内,增大batch,可以提高内存利用率,更快地跑完一次数据集,下降方向更准,减少震荡。
  5. 盲目增大batch,内存容量限制,学习的比较粗糙,精度会较低,增大到一定程度,下降的方向基本不变。
  6. batch太小,收敛较慢。虽然batch小的时候,随机性大一些,有时候会有更好的表现
  7. 如果增加了学习率,batch size最好随着增加,这样收敛更稳。
  8. 增大batch,等效于衰减学习率。较大的学习率有更好的泛化能力,呼应第5点。batch增大会降低精度
  9. 随着batch normalization的普及,一般采用较大的batch size,较小的batch size之后做 batchnorm会导致mean和variance偏移。
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值