深度学习中的 Batch_Size作用，调节方法和相关问题解决方法

最新推荐文章于 2024-05-02 15:46:30 发布

Paulzhao6518

最新推荐文章于 2024-05-02 15:46:30 发布

阅读量9.7k

点赞数 10

本文链接：https://blog.csdn.net/qq_41853758/article/details/81436731

版权

深度学习中的 Batch_Size

Batch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，它表示一次性读入多少批量的图片，不是样本。

Full Batch Learning：Batch_size=数据集大小，适用于小数据集。
Mini-batches Learning：Batch_size= N（自己设定），适用于大数据集。
Online Learning（在线学习）：Batch_size=1，。

首先，为什么需要有 Batch_Size 这个参数？

Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。其二，由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用 Rprop 只基于梯度符号并且针对性单独更新各权值。

对于更大的数据集，以上 2 个好处又变成了 2 个坏处：其一，随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行。其二，以 Rprop 的方式迭代，会由于各个 Batch 之间的采样差异性，各次梯度修正值相互抵消，无法修正。这才有了后来 RMSProp 的妥协方案。

既然 Full Batch Learning 并不适用大数据集，那么走向另一个极端怎么样？

所谓另一个极端，就是每次只训练一个样本，即 Batch_Size = 1。这就是在线学习（Online Learning）。线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆。对于多层神经元、非线性网络，在局部依然近似是抛物面。使用在线学习，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。如图所示：

è¿éåå¾çæè¿°

1.Batch_size的使用意义及大小的选择

Batch_size不宜选的太小，太小了容易修正方向导致不收敛，或者需要经过很大的epoch才能收敛；也没必要选的太大，太大的话首先显存受不了，其次可能会因为迭代次数的减少而造成参数修正变的缓慢。

可不可以选择一个适中的 Batch_Size 值呢？

当然可以，这就是批梯度下降法（Mini-batches Learning）。因为如果数据集足够充分，那么用一半（甚至少得多）的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。

在合理范围内，增大 Batch_Size 有何好处？

A：一定范围内增大Batch_size：

1、提高了内存的利用率，大矩阵乘法的并行化效率提高
2、跑完一次epoch所需要的迭代次数减少，相同数据量的数据处理速度加快。
3、 Batch_size越大下降方向越准，引起的训练震荡越小。
4、缺点：内存溢出、训练时间增加、收敛缓慢、局部最优，泛化性差

内存利用率提高了，大矩阵乘法的并行化效率提高。
跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

盲目增大 Batch_Size 有何坏处？

内存利用率提高了，但是内存容量可能撑不住了。
跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

实验证明调节 Batch_Size 对训练效果影响到底如何

相关学者做了相关实验，结论如下：
Batch_Size 太小，算法在相当多的epoch内不收敛。
随着 Batch_Size 增大，处理相同数据量的速度越快。
随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。
由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。

相关问题解决

1.Batch_size有时候明明已经很小了，可显存还是很紧张，还有就是同样的图片大小，同样的Batch_size，为啥有时候显存够用有时候就不够用呢，目前我所知道的可能是如下四个问题：

（1）模型的复杂度，复杂的模型占的内存比简单的模型要大很多，这一点容易被忽略；

（2）电脑可能还在运行其他占显存的任务，使用nvida-smi命令来查看，并关闭它们；

（3）不光train阶段的Batch_size要改，test阶段的Batch_size也要调小，我以前一直以为只改动train的就可以了，too naive；

（4）图片大小，这个好理解
2.如果我们的显卡比较渣，就2G，无法提高Batch_size，有什么办法挽救一下精度： 当batch_size无法提高的时候，可以把solver里面的iter_size调大一些，因为在每个随机梯度下降步骤中通过iter_size*batch_size实现累加梯度。所以增加iter_size也可以得到更稳定的梯度。首先根据显存大小选择Batch_size；其次根据自己的实际情况调整Batch_size，调参重在“调”，根据实际情况选择合适的参数。设置好Batch_size后，每一次epoch记得shuffle一次，不要让网络通过相同的minibatch。

Paulzhao6518

关注

10
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的 Batch_Size作用，调节方法和相关问题解决方法

深度学习中的 Batch_SizeBatch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，它表示一次性读入多少批量的图片，不是样本。Full Batch Learning：Batch_size=数据集大小，适用于小数据集。Mini-batches Learning：Batch_size= N（自己设定），适用于大数据集。Online Learning（在线学习）：Batc...
复制链接

扫一扫