1.梯度和梯度值
一个函数f(x,y,z),求其在x,y,z上的偏导,比如要求其在M(a,b,c)上的梯度,则将a,b,c带入(
)中,可以得到一个新的向量(A,B,C),那么这个新的向量就是梯度。梯度值就是这个向量的模,即
。
2.梯度下降算法
给定和初始点
重复执行以下过程直到满足条件
这里的
就是求
的梯度
是学习率
普通梯度下降容易陷入局部最优,所以需要改进。
3.基于冲量的梯度下降算法
冲量其实叫动量更合适,加了一个冲量,也许可以冲出局部最优点。
给定、初始点
和初始动量
重复执行以下过程直到满足条件
这里的
就是求
的梯度
其实就是在这里加了一个动量
4.NAG改进
这个是对基于冲量的梯度下降的改进算法。在基本梯度下降和冲量梯度下降中,都是在处计算梯度,要是我们能够在
附近探索一下,找到一个好一点的新的点计算梯度,会更好吧?所以NAG改进就是基于这个思路来的。
给定、初始点
和初始动量
重复执行以下过程直到满足条件
这里的
就是求
的梯度
其实就是在这里加了一个动量