下降方向:
设 x , d ∈ R n . 若 存 在 数 α > 0 , 使 得 x,d∈R^n.若存在数α>0,使得 x,d∈Rn.若存在数α>0,使得
f ( x + α d ) < f ( x ) f(x+αd)<f(x) f(x+αd)<f(x)
则称d是函数 f f f在点 x x x处的一个下降方向。
下降方向 d d d从几何上可解释为:当点从 x x x出发,沿着方向 d d d移动时,函数 f f f的值的变化呈单调递减的趋势。
梯度下降算法
梯度下降算法也叫做最速下降算法,以负梯度方向作为极小化算法的下降方向,是无约束最优化中最简单的方法。
设函数 f ( x ) 在 x k 附 近 连 续 可 微 , 且 g k = ▽ f ( x k ) ≠ 0 f(x) 在x_k附近连续可微,且g_k=▽f(x_k)≠0 f(x)在xk附近连续可微,且gk=▽f(xk)=0由Taylor展开式:
f ( x ) = f ( x k ) + ( x − x k ) T ▽ f ( x k ) + o ( ∣ ∣ x − x k ∣ ∣ ) f(x)=f(x_k)+(x-x_k)^T▽f(x_k)+o(||x-x_k||) f(x)=f(xk)+(x−xk)