没有并行计算的时候,small batch速度更快,large batch速度要慢一些
有了并行计算的时候,两个速度相同
每一个epoch的时间,small batch更慢,large batch更快
梯度:small batch更多噪音,稳定性差,large batch更加稳定
优化:small batch优化更好,large batch优化更糟
泛化性:small batch更多噪音,反而泛化性更好,large batch 泛化性更糟糕一些
momentum
没有并行计算的时候,small batch速度更快,large batch速度要慢一些
有了并行计算的时候,两个速度相同
每一个epoch的时间,small batch更慢,large batch更快
梯度:small batch更多噪音,稳定性差,large batch更加稳定
优化:small batch优化更好,large batch优化更糟
泛化性:small batch更多噪音,反而泛化性更好,large batch 泛化性更糟糕一些
momentum