批大小是机器学习中重要的超参数之一。超参数定义了更新内部模型参数之前要处理的样本数,这是确保模型达到最佳性能的关键步骤之一。
使用成批训练有三个好处:
(1)对一个批次的多个训练数据同时进行 f(x W +b) 操作,更容易GPU并行化处理
(2)多个训练数据loss function求和后,只做一次梯度下降,加速计算
(3)Batch Normalization 使用同批次的统计平均和偏差对数据进行正规化,加速训练
关于大批量和小批量训练方法在泛化方面的差异已经有很多研究。传统观点认为:增加批大小会降低学习器的泛化能力。这篇论文的作者“关于深度学习的大批量训练:泛化差距和锐利最小值”,声称这是因为大批量方法往往会导致模型卡在局部最小值中。这是因为,较小的批次更有可能跳出局部最小值并找到全局最小值。
学习率和批量大小密切相关——小批量在较小的学习率下表现最好,而大批量在较大的学习率下表现最好。
https://zhuanlan.zhihu.com/p/414340639
https://zhuanlan.zhihu.com/p/98666173?utm_source=wechat_timeline