batchsize大小对模型训练的影响

最新推荐文章于 2024-03-05 16:35:55 发布

hxxjxw

最新推荐文章于 2024-03-05 16:35:55 发布

阅读量4k

点赞数 7

文章标签： batchsize

本文链接：https://blog.csdn.net/hxxjxw/article/details/119797365

版权

从纯GPU算力的角度来说，batchsize大小的区别并不大，输入数据就那些，计算量是确定的。不同的batchsize大小影响反向传播和dataloader的次数，这部分消耗的时间也是很大的

基本结论

        batch size过小，花费时间多，同时梯度震荡严重，不利于收敛；

        batch size过大，不同batch的梯度方向没有任何变化，容易陷入局部极小值。

迭代速度

可见当batchsize增大到一定程度之后，再增大所带来的时间减少就会很小了，甚至消耗时间会增多

完成每个epoch运算的所需的全部时间主要卡在：

        ①load数据的时间 ②每个epoch的iter数量。

因此对于每个epoch，不管是纯计算时间还是全部时间，大体上还是大batch能够更节约时间一点，但随着batch增大，iter次数减小，完成每个epoch的时间更取决于加载数据所需的时间，此时也不见得大batch能带来多少的速度增益了。

梯度平滑程度

现在绝大多数的框架在进行mini-batch的反向传播的时候，默认都是将batch中每个instance的loss平均化之后在进行反向传播，所以相对大一点的batch size能够防止loss震荡的情况发生。从这两张图中可以看出batch size越小，相邻iter之间的loss震荡就越厉害，相应的，反传回去的梯度的变化也就越大，也就越不利于收敛。

同时很有意思的一个现象，batch size为1的时候，loss到后期会发生爆炸，这主要是lr=0.02设置太大，所以某个异常值的出现会严重扰动到训练过程。这也是为什么对于较小的batchsize，要设置小lr的原因之一，避免异常值对结果造成的扰巨大扰动。而对于较大的batchsize，要设置大一点的lr的原因则是大batch每次迭代的梯度方向相对固定，大lr可以加速其收敛过程。

收敛速度

从表中可以看出，在minst数据集上，从整体时间消耗上来看（考虑了加载数据所需的时间），同样的参数策略下 (lr = 0.02, momentum=0.5 ），要模型收敛到accuracy在98左右，batchsize在 6 - 60 这个量级能够花费最少的时间，而batchsize为1的时候，收敛不到98；batchsize过大的时候，因为模型收敛快慢取决于梯度方向和更新次数，所以大batch尽管梯度方向更为稳定，但要达到98的accuracy所需的更新次数并没有量级上的减少，所以也就需要花费更多的时间，当然这种情况下可以配合一些调参策略比如warmup LR，衰减LR等等之类的在一定程度上进行解决（这个先暂且按下不表），但也不会有本质上的改善。

不过单纯从计算时间上来看，大batch还是可以很明显地节约所需的计算时间的，原因前面讲过了，主要因为本次实验中纯计算时间中，反向占的时间比重远大于正向。