训练时第二个step loss特别大_浅析深度学习中Batch Size大小对训练过程的影响

最新推荐文章于 2024-01-09 21:45:21 发布

weixin_39624606

最新推荐文章于 2024-01-09 21:45:21 发布

阅读量1.1k

点赞数 4

文章标签：训练时第二个step loss特别大

本文分析了深度学习中Batch Size大小对训练过程的影响，包括训练速度、梯度平滑程度和收敛速度。大BatchSize能减少训练时间，但可能导致梯度震荡小，易陷入局部最小值。超大Batch训练时，可以尝试一次正向传播后分批反向传播以平衡训练速度和模型质量。

摘要由CSDN通过智能技术生成

之前面试过程中被问到过两个问题：

（1）深度学习中batch size的大小对训练过程的影响是什么样的？

（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？

-------------------------------面试版回答-------------------------------

在不考虑Batch Normalization的情况下（这种情况我们之后会在bn的文章里专门探讨），先给个自己当时回答的答案吧（相对来说学究一点）：

(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。（感谢评论区的韩飞同学提醒，batchsize只能说影响完成每个epoch所需要的时间，决定也算不上吧。根本原因还是CPU，GPU算力吧。瓶颈如果在CPU，例如随机数据增强，batch size越大有时候计算的越慢。）

对于一个大小为N的训练集，如果每个epoch中mini-batch的采样方法采用最常规的N个样本每个都采样一次，设mini-batch大小为b，那么每个epoch所需的迭代次数(正向+反向)为

因此完成每个epoch所需的时间大致也随着迭代次数的增加而增加。

由于目前主流深度学习框架处理mini-batch的反向传播时，默认都是先将每个mini-batch中每个instance得到的loss平均化之后再反求梯度，也就是说每次反向传播的梯度是对mini-batch中每个instance的梯度平均之后的结果，所以b的大小决定了相邻迭代之间的梯度平滑程度，b太小，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛；b越大，相邻mini-batch间的差异相对越小，虽然梯度震荡情况会比较小，一定程度上利于模型收敛，但如果b极端大，相邻mini-batch间的差异过小，相邻两个mini-batch的梯度没有区别了，整个训练过程就是沿着一个方向蹭蹭蹭往下

最低0.47元/天解锁文章

weixin_39624606

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
训练时第二个step loss特别大_浅析深度学习中Batch Size大小对训练过程的影响

之前面试过程中被问到过两个问题：（1）深度学习中batch size的大小对训练过程的影响是什么样的？（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？-------------------------------面试版回答----------...
复制链接

扫一扫