一.batch size
当采用较小的梯度进行梯度下降时可能会出现:
1.梯度在损失函数较为平缓段,下降速度十分缓慢
2.梯度下降停在鞍点
3.梯度下降停在局部最小值
当使用批量优化处理梯度时
然而,不同batch对于梯度处理有较大影响。虽然在使用gpu处理不同大小batch的时间并没有太大差距(下左图),但当一个epoch含有的batch越多,处理一个epoch所需输入的batch数越多,时间也越长(下右图&#x
当采用较小的梯度进行梯度下降时可能会出现:
1.梯度在损失函数较为平缓段,下降速度十分缓慢
2.梯度下降停在鞍点
3.梯度下降停在局部最小值
当使用批量优化处理梯度时
然而,不同batch对于梯度处理有较大影响。虽然在使用gpu处理不同大小batch的时间并没有太大差距(下左图),但当一个epoch含有的batch越多,处理一个epoch所需输入的batch数越多,时间也越长(下右图&#x