优化器(Optimizer)
本文主要参考:https://blog.csdn.net/weixin_41417982/article/details/81561210
Gradiend Descent(梯度下降)
梯度下降算法是将所有数据集都载入,计算他们所有的梯度,然后执行决策,(沿着梯度下降最快的方向进行更新)。
优缺点:可以快速进行下降收敛,但是要计算所有的梯度,计算量太大,数据集过大,GPU无法计算,除此之外,如果是凸函数,则可以收敛到最小值,其他情况下,可能会遇到局部最小值的情况 。
Stochastic Gradient Descent(SGD)(随机梯度下降)
随机梯度下降是随机选取部分数据的梯度进行计算。
因为数据量问题,SGD更新速度比较频繁,所以能更快收敛。
问题: SGD在更新过程中,如果在一个方向更新速度较快,另外一个方向更新速度较慢的话,则会产生摆动,收敛速度会变慢,除此之外也会遇到鞍点(局部最小值)的情况。