一.大batch和小batch:
两个极端情况,一个是batch为全部,另一个是1,看上去batch大的需要计算的时间长但是稳定,另外一个小的时间短但是不稳定。
但是还有一个平行计算的问题。那么大的batch就不一定时间比较长。
1和1000也不会差太多,但是如果太大就不行了。实际上总的太说大的batch相对花的时间比较短。
但是过大的batch还会导致,训练的效果变差,原因就是输入的训练资料太多了,优化失败了。
总的来说:
二.Momentum
一般的算出gradient然后反方向更新,然后重复。
加上momentum之后:要根据gradient和上一步的方向合起来运算。
解决了微分等于0就卡住不动的问题。