batch—size的大小对loss收敛的影响 batch_size 太小:网络收敛不稳定,收敛慢,loss来回震荡,batch_size的方向不能大致的代替整个样本的方向。batch_size 太大:计算量大,内存消耗多,前期收敛可能快,训练次数减少。由于GPU的特性,batch_size最好选用 8 , 16 ,32 ,64….