直观的理解:
Batch Size定义:一次训练所选取的样本数。
Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况,假如你GPU内存不大,该数值最好设置小一点。
为什么要提出Batch Size?
在没有使用Batch Size之前,这意味着网络在训练时,是一次把所有的数据(整个数据库)输入网络中,然后计算它们的梯度进行反向传播,由于在计算梯度时使用了整个数据库,所以计算得到的梯度方向更为准确。但在这情况下,计算得到不同梯度值差别巨大,难以使用一个全局的学习率,所以这时一般使用Rprop这种基于梯度符号的训练算法,单独进行梯度更新。
在小样本数的数据库中,不使用Batch Size是可行的,而且效果也很好。但是一旦是大型的数据库,一次性把所有数据输进网络,肯定会引起内存的爆炸。所以就提出Batch Size的概念。
Batch Size设置合适时的优点:
1、通过并行化提高内存的利用率。就是尽量让你的GPU满载运行,提高训练速度。
2、单个epoch的迭代次数减少了,参数的调整也慢了,假如要达到相同的识别精度,需要更多的epoch。
3、适当Batch Size使得梯度下降方向更加准确。
Batch Size从小到大的变化对网络影响
1、没有Batch Size,梯度准确,只适用于小样本数据库
2、Batch Size=1,梯度变来变去,非常不准确,网络很难收敛。
3、Batch Size增大,梯度变准确,
4、Batch Size增大,梯度已经非常准确,再增加Batch Size也没有用
注意:Batch Size增大了,要到达相同的准确度,必须要增大epoch。
GD(Gradient Descent):就是没有利用Batch Size,用基于整个数据库得到梯度,梯度准确,但数据量大时,计算非常耗时,同时神经网络常是非凸的,网络最终可能收敛到初始点附近的局部最优点。
SGD(Stochastic Gradient Descent):就是Batch Size=1,每次计算一个样本,梯度不准确,所以学习率要降低。
mini-batch SGD:就是选着合适Batch Size的SGD算法,mini-batch利用噪声梯度,一定程度上缓解了GD算法直接掉进初始点附近的局部最优值。同时梯度准确了,学习率要加大。
对于mini-batch SGD:
为什么说Batch size的增大能使网络的梯度更准确?
梯度的方差表示:
Var(g)=Var(1m∑mi=1g(xi,yi))=1m2Var(g(x1,y1)+g(x2,y2)+⋅⋅⋅+g(xm,ym))
V
a
r
(
g
)
=
V
a
r
(
1
m
∑
i
=
1
m
g
(
x
i
,
y
i
)
)
=
1
m
2
V
a
r
(
g
(
x
1
,
y
1
)
+
g
(
x
2
,
y
2
)
+
·
·
·
+
g
(
x
m
,
y
m
)
)
由于样本是随机选取的,满足独立同分布,所以所有样本具有相同的方差
Var(g(xi,yi))
V
a
r
(
g
(
x
i
,
y
i
)
)
所以上式可以简化成
Var(g)=1mVar(g(xi,yi))
V
a
r
(
g
)
=
1
m
V
a
r
(
g
(
x
i
,
y
i
)
)
可以看出当Batch size为m时,样本的方差减少m倍,梯度就更准确了。
假如想要保持原来数据的梯度方差,可以增大学习率
lr
l
r
1mVar(lr∗g(xi,yi))
1
m
V
a
r
(
l
r
∗
g
(
x
i
,
y
i
)
)
,只要
lr
l
r
取
m−−√
m
,上式就变成
Var(g(xi,yi))
V
a
r
(
g
(
x
i
,
y
i
)
)
这也说明batch size设置较大时,一般学习率要增大。但是
lr
l
r
的增大不是一开始就设置的很大,而是在训练过程中慢慢变大。
一个具体例子分析:
在分布式训练中,Batch size随着数据并行的workers增加而增大,假如baseline的Batch Size为
B
B
,而学习率为,训练epoch为
N
N
。假如保持baseline的,一般达不到很好的收敛速度和精度。
原因:对于收敛速度,假如有
K
K
个workers,则每个批次为,因此一个epoch迭代的次数为baseline的
1k
1
k
,而学习率
lr
l
r
不变,所以要达到与baseline相同的收敛情况,epoch要增大。而根据上面公式,epoch最大需要增大
KN
K
N
个epoch,但一般情况下不需要增大那么多。
对于收敛精度,由于Batch size的使用使梯度更准确,噪声减少,所以更容易收敛。