批梯度下降(BGD, batch gradient descent),计算公式如下,每次梯度下降往样本总体损失函数减少的方向更新.
优点:以梯度下降最快的方向收敛。
缺点:每次更新参数都要计算全部样本,计算量很大,尤其当样本数量很大的时候。
随机梯度下降(SGD, stochastic gradient descent),计算公式如下,按照每个样本损失函数下降最快的方向更新。
优点:每次更新参数计算量小,加快迭代速度
缺点:并不是沿着J(θ)下降最快的方向收敛,而是震荡的方式趋向极小点
二者的收敛情况如下图
小批量梯度下降(MBGD, Mini-batch gradient descent),计算公式如下,将样本分为若干个小的batch,按照每个batch损失函数下降最快的方向更新。如下图,每个batch有10个样本,每次更新参数就按照这10个样本的梯度下降方向更新。
结合了BGD和SGD的优点,迭代速度比BGD快,且精度比SGD高。