参考博客:
***** 深度学习必备:随机梯度下降(SGD)优化算法及可视化:
**** 深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam):
***** 为什么说随机最速下降法 (SGD) 是一个很好的方法?:
}
一、概述
求解器(solver),也称为优化器。
对于优化算法,优化的目标是网络模型中的参数θ(是一个集合,θ1、θ2、θ3 …)。目标函数为损失函数L = 1/N ∑ Li (每个样本损失函数的叠加求均值)。
这个损失函数L变量就是θ,其中L中的参数是整个训练集,换句话说,目标函数