梯度下降法中为什么梯度的反方向是函数下降最快的方向?
梯度是个向量,函数沿梯度方向具有最大的变化率。是因为函数在这个方向具有最大的变化率,所以冠以梯度这一概念,所以要搞清楚的是,怎么在无数个方向导数中找到具有最大变化率的方向导数,即最大的方向导数,需要先写出方向导数的表达式,求这个表达式的最大值。
要解释这个问题,需要探究梯度这个概念的来源。
首先看一元函数,常规一元函数及其导数为:
y = f ( x ) f ′ ( x ) = lim Δ x → 0 Δ y Δ x = lim Δ x → 0 f ( x + Δ x ) − f ( x ) Δ x y=f(x)\\ f'(x)=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\rightarrow0}\frac{f(x+\Delta x)-f(x)}{\Delta x} y=f(x)f′(x)=Δx→0limΔxΔy=Δx→0limΔxf(x+