【深度学习】BatchSize设置

最新推荐文章于 2024-08-20 16:21:48 发布

sdbhewfoqi

最新推荐文章于 2024-08-20 16:21:48 发布

阅读量1.2w

点赞数 17

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_31866177/article/details/96445370

版权

深度学习专栏收录该内容

68 篇文章 15 订阅

订阅专栏

Batch_size的使用意义及大小的选择

Batch_size不宜选的太小，太小了容易不收敛，或者需要经过很大的epoch才能收敛；也没必要选的太大，太大的话首先显存受不了，其次可能会因为迭代次数的减少而造成参数修正变的缓慢。

Batch_size有时候明明已经很小了，可显存还是很紧张，还有就是同样的图片大小，同样的Batch_size，为啥有时候显存够用有时候就不够用呢，目前我所知道的可能是如下四个问题：

（1）模型的复杂度，复杂的模型占的内存比简单的模型要大很多，这一点容易被忽略；

（2）电脑可能还在运行其他占显存的任务，使用nvida-smi命令来查看，并关闭它们；

（3）不光train阶段的Batch_size要改，test阶段的Batch_size也要调小，我以前一直以为只改动train的就可以了，too naive；

（4）图片大小

我的一个盲区

遇到了一个问题，虽然还没解决，也不知道错误在哪？运行中间说batch_size出现错误。。。

137   self.n_batch_size = int(config.get("train", "batch_size"))

-_-||原因是因为公司及其内存不够了。。。137

训练batch size和测试的batch size无关，随便设一个数，显卡放得下的话，越大越好，越大越快。

这个句话有问题20190829，并不是越多越好。

网易面试官问了一个问题学习率和batchsize的关系是？

【AI不惑境】学习率和batchsize如何影响模型的性能？ - 龙鹏-言有三的文章 - 知乎

1 为什么说学习率和batchsize

目前深度学习模型多采用批量随机梯度下降算法进行优化，随机梯度下降算法的原理如下，

n是批量大小(batchsize)，η是学习率(learning rate)。可知道除了梯度本身，这两个因子直接决定了模型的权重更新，从优化本身来看它们是影响模型性能收敛最重要的参数。

学习率直接影响模型的收敛状态，batchsize则影响模型的泛化性能，两者又是分子分母的直接关系，相互也可影响，因此这一次来详述它们对模型性能的影响。

2 学习率如何影响模型性能？

通常我们都需要合适的学习率才能进行学习，要达到一个强的凸函数的最小值，学习率的调整应该满足下面的条件，i代表第i次更新。

第一个式子决定了不管初始状态离最优状态多远，总是可以收敛。第二个式子约束了学习率随着训练进行有效地降低，保证收敛稳定性，各种自适应学习率算法本质上就是不断在调整各个时刻的学习率。

学习率决定了权重迭代的步长，因此是一个非常敏感的参数，它对模型性能的影响体现在两个方面，第一个是初始学习率的大小，第二个是学习率的变换方案。

2.1、初始学习率大小对模型性能的影响

初始的学习率肯定是有一个最优值的，过大则导致模型不收敛，过小则导致模型收敛特别慢或者无法学习，下图展示了不同大小的学习率下模型收敛情况的可能性，图来自于cs231n。

那么在不考虑具体的优化方法的差异的情况下，怎样确定最佳的初始学习率呢？

通常可以采用最简单的搜索法，即从小到大开始训练模型，然后记录损失的变化，通常会记录到这样的曲线。

随着学习率的增加，损失会慢慢变小，而后增加，而最佳的学习率就可以从其中损失最小的区域选择。

有经验的工程人员常常根据自己的经验进行选择，比如0.1，0.01等。

随着学习率的增加，模型也可能会从欠拟合过度到过拟合状态，在大型数据集上的表现尤其明显，笔者之前在Place365上使用DPN92层的模型进行过实验。随着学习率的增强，模型的训练精度增加，直到超过验证集。

2.2、学习率变换策略对模型性能的影响

学习率在模型的训练过程中很少有不变的，通常会有两种方式对学习率进行更改，一种是预设规则学习率变化法，一种是自适应学习率变换方法。

2.2.1 预设规则学习率变化法

常见的策略包括fixed，step，exp，inv，multistep，poly，sigmoid等，集中展示如下：

笔者之前做过一个实验来观察在SGD算法下，各种学习率变更策略对模型性能的影响，具体的结果如下：

3 Batchsize如何影响模型性能？

模型性能对batchsize虽然没有学习率那么敏感，但是在进一步提升模型性能时，batchsize就会成为一个非常关键的参数。

3.1 大的batchsize减少训练时间，提高稳定性

这是肯定的，同样的epoch数目，大的batchsize需要的batch数目减少了，所以可以减少训练时间，目前已经有多篇公开论文在1小时内训练完ImageNet数据集。另一方面，大的batch size梯度的计算更加稳定，因为模型训练曲线会更加平滑。在微调的时候，大的batch size可能会取得更好的结果。

3.2 大的batchsize导致模型泛化能力下降

在一定范围内，增加batchsize有助于收敛的稳定性，但是随着batchsize的增加，模型的性能会下降，如下图，来自于文[5]。

这是研究者们普遍观测到的规律，虽然可以通过一些技术缓解。这个导致性能下降的batch size在上图就是8000左右。

那么这是为什么呢？

研究[6]表明大的batchsize收敛到sharp minimum，而小的batchsize收敛到flat minimum，后者具有更好的泛化能力。两者的区别就在于变化的趋势，一个快一个慢，如下图，造成这个现象的主要原因是小的batchsize带来的噪声有助于逃离sharp minimum。