目录
1.梯度下降
即每一步在所有m个样本上更新一次梯度,也称作批量梯度下降(Batch Gradient Descent)。
对于:
其中,L是神经网络的层数,是学习率。
2.随机梯度下降
相当于每一个batch只有一个样本的mini-batch,更新策略与梯度下降大致相同,不同的是每一次只在一个训练样本上计算梯度,而不是整个训练集上。
在随机梯度下降中,更新梯度之前只用了一个训练样本,所以当训练集很大时,随机梯度下降更快。但参数会朝着最小值的方向波动而不是平滑地收敛,如图:
3.Mini-batch梯度下降
Mini-batch梯度下降每一步使用了介于整个训练集和一个训练样本之间的样本数量。