1 .batch vs mini-batch
2.理解mini-batch
分成几份,,,遍历做回归与反省回归。
若size=m,才相当于batch。
若size=1 ,随机梯度下降法(stochastic gradient descent)每个样本样本都是独立Mini_batch.
随机梯度下降法有很多的 噪声。指错方向。往往不会到达最小值,而是在附近波动.很显然,一个样本求一次梯度,没有用到向量,速度慢.若1 < size < m,学习速率最快。1 实现了向量化。2.不需要等待整个训练集处理完
Vectoration fast总的来说比随机梯度下降 更持续的接近最小值,也不一定在很小的范围内波动,如果出现波动,可以减小学习率
3How to choose size?
1 . small training set (m<=2000):use batch gradient descent
2 . bigger training set:64 to 512.consider computer memory,(2 to nth)
attention: make sure your mini-batch size fits in GPU/CPU memory