一般情况下,在合理的范围之内,越大的batch size使下降方向越准确,震荡越小;batch size如果过大,则可能会出现局部最优的情况。小的batch size引入的随机性更大,难以达到收敛,极少数情况下可能会效果变好。 待续