Stochastic gradient descent 梯度下降在面对很大的数据量时很难执行。 Gradient descent extensions 如何适当降低随机梯度下降的随机性? 采用 Mini-batch gradient descent