神经网络中Batch Size的理解

最新推荐文章于 2025-03-29 16:40:09 发布

Star_ACE

最新推荐文章于 2025-03-29 16:40:09 发布

阅读量10w+

收藏 1.1k

点赞数 271

分类专栏：机器视觉

本文链接：https://blog.csdn.net/qq_34886403/article/details/82558399

版权

机器视觉专栏收录该内容

19 篇文章

订阅专栏

直观的理解：
Batch Size定义：一次训练所选取的样本数。
Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况，假如你GPU内存不大，该数值最好设置小一点。

为什么要提出Batch Size？
在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。
在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

Batch Size设置合适时的优点：
1、通过并行化提高内存的利用率。就是尽量让你的GPU满载运行，提高训练速度。
2、单个epoch的迭代次数减少了，参数的调整也慢了，假如要达到相同的识别精度，需要更多的epoch。
3、适当Batch Size使得梯度下降方向更加准确。

Batch Size从小到大的变化对网络影响
1、没有Batch Size，梯度准确，只适用于小样本数据库
2、Batch Size=1，梯度变来变去，非常不准确，网络很难收敛。
3、Batch Size增大，梯度变准确，
4、Batch Size增大，梯度已经非常准确，再增加Batch Size也没有用

注意：Batch Size增大了，要到达相同的准确度，必须要增大epoch。

GD（Gradient Descent）：就是没有利用Batch Size，用基于整个数据库得到梯度，梯度准确，但数据量大时，计算非常耗时，同时神经网络常是非凸的，网络最终可能收敛到初始点附近的局部最优点。

SGD（Stochastic Gradient Descent）：就是Batch Size=1，每次计算一个样本，梯度不准确，所以学习率要降低。

mini-batch SGD：就是选着合适Batch Size的SGD算法，mini-batch利用噪声梯度，一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了，学习率要加大。
对于mini-batch SGD:

l o s s 值 : L = 1 m \sum i = 1 m L (x i, y i)

$loss值:\ \ \ \ L=\frac{1}{m}\sum_{i=1}^{m}L(x_i,y_i)$

g r a d i e n t 值 : g = 1 m \sum i = 1 m g (x i, y i)

$gradient值:\ \ \ \ g=\frac{1}{m}\sum_{i=1}^{m}g(x_i,y_i)$

为什么说Batch size的增大能使网络的梯度更准确？
梯度的方差表示：
$Var(g)=Var(\frac{1}{m}\sum_{i=1}^{m}g(x_i,y_i)) =\frac{1}{m^2}Var(g(x_1,y_1)+g(x_2,y_2)+···+g(x_m,y_m))$
由于样本是随机选取的，满足独立同分布，所以所有样本具有相同的方差 $Var(g(x_i,y_i))$
所以上式可以简化成 $Var(g)=\frac{1}{m}Var(g(x_i,y_i))$
可以看出当Batch size为m时，样本的方差减少m倍，梯度就更准确了。

假如想要保持原来数据的梯度方差，可以增大学习率 $lr$
$\frac{1}{m}Var(lr*g(x_i,y_i))$ ,只要 $lr$ 取 $\sqrt{m}$ ，上式就变成 $Var(g(x_i,y_i))$
这也说明batch size设置较大时，一般学习率要增大。但是 $lr$ 的增大不是一开始就设置的很大，而是在训练过程中慢慢变大。

一个具体例子分析：
在分布式训练中，Batch size随着数据并行的workers增加而增大，假如baseline的Batch Size为 $B$ ，而学习率为 $lr$ ，训练epoch为 $N$ 。假如保持baseline的 $lr$ ，一般达不到很好的收敛速度和精度。
原因：对于收敛速度，假如有 $K$ 个workers，则每个批次为 $KB$ ，因此一个epoch迭代的次数为baseline的 $\frac{1}{k}$ ，而学习率 $lr$ 不变，所以要达到与baseline相同的收敛情况，epoch要增大。而根据上面公式，epoch最大需要增大 $KN$ 个epoch，但一般情况下不需要增大那么多。
对于收敛精度，由于Batch size的使用使梯度更准确，噪声减少，所以更容易收敛。