梯度下降法(Gradient descent)在机器学习领域是非常常见的一种优化函数,尤其是在深度学习相关领域,就我们现在熟悉的Adam、Momentum、Adagrad等,均是以梯度下降法为基础发展而来,因此梯度下降法在算法领域的位置可见一斑。本文不谈其他优化函数,我们谈谈如何从泰勒公式的角度推导出梯度下降法法。
1、泰勒公式
泰勒公式来源于泰勒中值定理,即:如果函数f(x)在含有x_0的某个开区间内具有直到(n+1)阶的导数,则对任一x属于(a,b),有如下公式:
其中R_n(x)是一个高阶无穷小量,用以表示误差。
当
(其中ξ是介于x和x_0之间的某个值)