梯度下降法
其有着三种不同的形式:
- 批量梯度下降(Batch Gradient Descent)、
- 随机梯度下降(Stochastic Gradient Descent)
- 以及小批量梯度下降(Mini-Batch Gradient Descent)。
其中小批量梯度下降法也常用在深度学习中进行模型的训练。
1.批量梯度下降法
批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新.
优点:
(1)一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。
(2)由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。
缺点:
(1)当样本数目 mm 很大时,每