batch size 训练时间_深度学习 | Batch Size大小对训练过程的影响

最新推荐文章于 2024-06-22 16:00:01 发布

Falcon Leo

最新推荐文章于 2024-06-22 16:00:01 发布

阅读量2.3k

点赞数

文章标签： batch size 训练时间

本文链接：https://blog.csdn.net/weixin_42300418/article/details/112834994

版权

转自：面试中问你 Batch Size大小对训练过程的影响mp.weixin.qq.com

先看两个问题：

(1)深度学习中batch size的大小对训练过程的影响是什么样的？

(2)有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？面试版回答

在不考虑Batch Normalization的情况下(这种情况我们之后会在bn的文章里专门探讨)，先给个自己当时回答的答案吧(相对来说学究一点)：

(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。batch size只能说影响完成每个epoch所需要的时间，决定也算不上吧。根本原因还是CPU，GPU算力吧。瓶颈如果在CPU，例如随机数据增强，batch size越大有时候计算的越慢。

对于一个大小为N的训练集，如果每个epoch中mini-batch的采样方法采用最常规的N个样本每个都采样一次，设mini-batch大小为b，那么每个epoch所需的迭代次数(正向+反向)为 , 因此完成每个epoch所需的时间大致也随着迭代次数的增加而增加。

由于目前主流深度学习框架处理mini-batch的反向传播时，默认都是先将每个mini-batch中每个instance得到的loss平均化之后再反求梯度，也就是说每次反向传播的梯度是对mini-batch中每个instance的梯度平均之后的结果，所以b的大小决定了相邻迭代之间的梯度平滑程度，b太小，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛；b越大，相邻mini-batch间的差异相对越小，虽然梯度震荡情况会比较小，一定程度上利于模型收敛，但如果b极端大，相邻mini-batch间的差异过小，相邻两个mini-batch的梯度没有区别了，整个训练过程就是沿着一个方向蹭蹭蹭往下走，很容易陷入到局部最小值出不来。

总结下来：batch size过小，花费时间多，同时梯度震荡严重，不利于收敛；batch size过大，不同batch的梯度方向没有任何变化，容易陷入局部极小值。

(2)(存疑，只是突发奇想)如果硬件资源允许，想要追求训练速度使用超大batch，可以采用一次正向+多次反向的方法，避免模型陷入局部最小值。即使用超大epoch做正向传播，在反向传播的时候，分批次做多次反向转播，比如将一个batch size为64的batch，一次正向传播得到结果，instance级别求loss(先不平均)，得到64个loss结果；反向传播的过程中，分四次进行反向传播，每次取16个instance的loss求平均，然后进行反向传播，这样可以做到在节约一定的训练时间，利用起硬件资源的优势的情况下，避免模型训练陷入局部最小值。通俗版回答

那么我们可以把第一个问题简化为一个小时候经常玩的游戏：

深度学习训练过程：

最低0.47元/天解锁文章

Falcon Leo

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
batch size 训练时间_深度学习 | Batch Size大小对训练过程的影响

转自：面试中问你 Batch Size大小对训练过程的影响mp.weixin.qq.com先看两个问题：(1)深度学习中batch size的大小对训练过程的影响是什么样的？(2)有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？面试版回答在不考虑Batch No...
复制链接

扫一扫