一种常用的策略是按照线性缩放规则来调整学习率,即当BatchSize增加N倍时,学习率也增加N倍。 另一种策略是保持权重的方差不变,此时学习率应该增加为原来的sqrt(N)倍。 参考文章: 深度学习中的BatchSize选择与学习率调整策略