梯度下降分类
- 批梯度下降法(BGD):使用整个数据集所有的样本得到的loss对每个参数进行更新;
- 随机梯度下降法(SGD):使用一个数据样本得到loss对每个参数更新;
- 小批量梯度下降法(MBGD):使用M个样本得到的loss对每个参数更新;
注意:对于所有的梯度下降方法,如果问题不是凸问题那么所有的方法都有可能陷入局部最小值,不一定能得到全局最优值。
批梯度下降法
- 定义:批梯度下降法首先对数据集中所有的样本应用当前的网络参数进行计算得到估计值Y(i)’,并且计算所有样本的失真L(i)=(Y(i)-Y(i)’)^2,然后求平均loss,用求出的平均loss对网络参数进行更新。
- 缺点:每次更新都需要计算每个样本的loss,仅适用于小数据集不能用于大数据集。
- 优点:暂时还没找到!
随机梯度下降
- 定义:每次仅计算一个样本的loss,然后用这个loss对网络参数进行更新。
- 优点:由于每次仅计算一个样本的loss,计算复杂度很低,收敛较快。
- 缺点:由于每次计算一个样本的loss,不能保证更新得到的参数是往最优值的方向前进,可能一直在震荡。
小批量梯度下降法
- 定义:每次计算M个样本的loss,然后用这个loss对网络参数进行更新。
- 优点:与SGD一致。
- 缺点:与SGD一致。
- 说明:MBGD是BGD和SGD的一种折衷,现在所说的SGD一般值MBGD,实际运用也是MBGD。