较大的batch_size能够得到更加精准的梯度估计,但是回报小于线性。较小的batch_size能够带来更好的泛化误差。 由于小batch_size再学习过程中带来了噪声,会产生一些正则化效果。由于梯度估计的高方差,小batch_size在训练中需要更小的学习率以保持稳定性,这意味着更长的训练时间当batch_size设置为2的次幂时能够充分利用矩阵运算。 参考《深度学习》8.13