梯度下降法、牛顿法早就知道,怎么使用也很简单,但一直没搞太明白,为什么“梯度方向就是下降最快的方向”?什么站在山顶往下走只是结果,根本没解释原因,这次终于搞清楚了,写下来以防忘记。
梯度下降法
对于一个函数,可能是一维或者多维的变量,给一个增量使它的值变小,要使在这一步变得最小,即下降最快,根据泰勒展开
<梯度下降法、牛顿法早就知道,怎么使用也很简单,但一直没搞太明白,为什么“梯度方向就是下降最快的方向”?什么站在山顶往下走只是结果,根本没解释原因,这次终于搞清楚了,写下来以防忘记。
对于一个函数,可能是一维或者多维的变量,给一个增量使它的值变小,要使在这一步变得最小,即下降最快,根据泰勒展开
<