paddlepaddle学习笔记之随机梯度下降法
本文基于ai-studio使用nmumpy构建神经网络模型项目
随机梯度下降法
每次从总的数据集中随机抽取出小部分数据来代表整体,基于这部分数据计算梯度和损失来更新参数,这种方法被称作随机梯度下降法(Stochastic Gradient Descent,SGD)
与梯度下降法的区别
- 每次抽取数据时将数据集打乱。
- 每次只从总的数据集中抽取小部分数据。
特点
-
对于训练速度来说,随机梯度下降法由于每次仅仅采用一个样本来迭代,训练速度很快。
-
对于精准度来说,随机梯度下降法每次训练仅仅用一个样本决定梯度的方向,可能得到局部最小值,精准度不高。
-
对于收敛速度来说,由于随机梯度下降法一次迭代一个样本,导致迭代方向变化很大,不能很快的收敛到局部最优解。