epoch训练时间不同_面试中问你 Batch Size大小对训练过程的影响

最新推荐文章于 2024-04-25 00:03:39 发布

weixin_39639600

最新推荐文章于 2024-04-25 00:03:39 发布

阅读量456

点赞数

文章标签： epoch训练时间不同

本文链接：https://blog.csdn.net/weixin_39639600/article/details/111629859

版权

本文讨论了深度学习中Batch Size对训练过程的影响，包括迭代速度、梯度平滑程度和收敛速度。小Batch可能导致梯度震荡，不利于收敛，而大Batch则可能使模型陷入局部最小值。提出了超大Batch训练时，可以采用一次正向传播加多次反向传播的策略，以平衡训练速度和避免局部最小值。

摘要由CSDN通过智能技术生成

微信公众号：Jerry的算法和NLP

作者：陈志远

之前面试过程中被问到过两个问题：

(1)深度学习中batch size的大小对训练过程的影响是什么样的？

(2)有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？

面试版回答

在不考虑Batch Normalization的情况下(这种情况我们之后会在bn的文章里专门探讨)，先给个自己当时回答的答案吧(相对来说学究一点)：

(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。(感谢评论区的韩飞同学提醒，batchsize只能说影响完成每个epoch所需要的时间，决定也算不上吧。根本原因还是CPU，GPU算力吧。瓶颈如果在CPU，例如随机数据增强，batch size越大有时候计算的越慢。)

对于一个大小为N的训练集，如果每个epoch中mini-batch的采样方法采用最常规的N个样本每个都采样一次，设mini-batch大小为b，那么每个epoch所需的迭代次数(正向+反向)为 , 因此完成每个epoch所需的时间大致也随着迭代次数的增加而增加。

由于目前主流深度学习框架处理mini-batch的反向传播时，默认都是先将每个mini-batch中每个instance得到的loss平均化之后再反求梯度，也就是说每次反向传播的梯度是对mini-batch中每个instance的梯度平均之后的结果，所以b的大小决定了相邻迭代之间的梯度平滑程度，b太小，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛；b越大，相邻mini-batch间的差异相对越小，虽然梯度震荡情况会比较小，一定程度上利于模型收敛，但如果b极端大，相邻mini-batch间的差异过小，相邻两个mini-batch的梯度没有区别了，整个训练过程就是沿着一个方向蹭蹭蹭往下走，很容易陷入到局部最小值出不来。

总结下来：batch size过小，花费时间多，同时梯度震荡严重，不利于收敛；batch size过大，不同batch的梯度方向没有任何变化，容易陷入局部极小值。

(2)(存疑，只是突发奇想)如果硬件资源允许，想要追求训练速度使用超大batch，可以采用一次正向+多次反向的方法，避免模型陷入局部最小值。即使用超大epoch做正向传播，在反向传播的时候，分批次做多次反向转播，比如将一个batch size为64的batch，一次正向传播得到结果，instance级别求loss(先不平均)，得到64个loss结果；反向传播的过程中，分四次进行反向传播，每次取16个instance的loss求平均，然后进行反向传播，这样可以做到在节约一定的训练时间，利用起硬件资源的优势的情况下，避免模型训练陷入局部最小值。