CNN基础——如何设置BatchSize(2)，Python多线程断点续传

2401_84023262

于 2024-04-04 01:59:08 发布

阅读量802

点赞数 16

分类专栏： 2024年程序员学习文章标签： cnn python 人工智能

本文链接：https://blog.csdn.net/2401_84023262/article/details/137362388

版权

本文探讨了在卷积神经网络（CNN）中设置Batch Size的重要性。介绍了Batch Size从1到全数据集的影响，包括内存管理、训练速度和收敛性质。建议在设置时考虑样本数量、GPU资源和优化算法，以找到平衡点。适当增加Batch Size可以提高内存利用率和并行化效率，但过大可能导致收敛到局部最优。同时，推荐根据GPU占用和损失函数收敛情况调整Batch Size，如16、32、64等。

摘要由CSDN通过智能技术生成

在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。

在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

3、如何设置Batch_Size 的值？

======================

假如每次只训练一个样本，即 Batch_Size = 1。线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆。对于多层神经元、非线性网络，在局部依然近似是抛物面。此时，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

既然 Batch_Size 为全数据集或者Batch_Size = 1都有各自缺点，那么如何设置一个合适的BatchSize呢？这个和样本还有一定的关系，样本量少的时候会带来很大的方差，而这个大方差恰好会导致我们在梯度下降到很差的局部最优点（只是微微凸下去的最优点）和鞍点的时候不稳定，一不小心就因为一个大噪声的到来导致炸出了局部最优点。

与之相反的，当样本量很多时，方差很小，对梯度的估计要准确和稳定的多，因此反而在差劲的局部最优点和鞍点时反而容易自信的呆着不走了，从而导致神经网络收敛到很差的点上，跟出了bug一样的差劲。

batch的size设置的不能太大也不能太小，因此实际工程中最常用的就是mini-batch，一般size设置为几十或者几百。

对于二阶优化算法，减小batch换来的收敛速度提升远不如引入大量噪声导致的性能下降，因此在使用二阶优化算法时，往往要采用大batch哦。此时往往batch设置成几千甚至一两万才能发挥出最佳性能。

所以设置BatchSize要注意一下几点&