为什么说梯度的反方向是函数下降最快的方向

    梯度在机器学习和深度学习中是一个高频词汇,弄懂梯度的概念对梯度下降,反向传播的理解有很大帮助。这里我根据个人理解,对梯度的反方向是函数下降最快的方向这一观点进行解释。限于作者水平,难免有错误之处,欢迎批评指正。

导数

    说到梯度,就不可避免的要谈导数。对于单变量函数 f ( x ) f(x) f(x)在点 x 0 x_0 x0处连续,则函数 f ( x ) f(x) f(x)在点 x 0 x_0 x0处的导数为:
f ′ ( x 0 ) = lim ⁡ Δ x − > 0 Δ y Δ x = lim ⁡ Δ x − > 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x \begin{aligned} f^{'}(x_0) &=\lim_{\Delta x->0}\frac{\Delta y}{\Delta x}\\ &=\lim_{\Delta x->0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x} \end{aligned} f(x0)=Δx>0limΔxΔy=Δx>0limΔxf(x0+Δx)f(x0)

在这里插入图片描述
图片来源:维基百科

偏导

    对于多个自变量的函数,就需要求偏导数。这里用两个自变量的函数为例,多个自变量的函数类似 。
    假设函数 f ( x , y ) f(x, y) f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处连续,则函数 f ( x , y ) f(x, y) f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处的偏导为:
f x ( x 0 , y 0 ) = lim ⁡ Δ x − > 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x f y ( x 0 , y 0 ) = lim ⁡ Δ y − > 0 f ( x 0 , y 0 + Δ y ) − f ( x 0 , y 0 ) Δ y \begin{aligned} & f_{x}(x_0, y_0) = \lim_{\Delta x->0} \frac {f(x_0+\Delta x, y_0)-f(x_0, y_0)} {\Delta x} \\ & f_{y}(x_0, y_0) = \lim_{\Delta y->0} \frac {f(x_0, y_0+\Delta y) - f(x_0, y_0)} {\Delta y} \end{aligned} fx(x0,y0)=Δx>0limΔxf(x0+Δx,y0)f(x0,y0)fy(x0,y0)=Δy>0limΔyf(x0,y0+Δy)f(x0,y0)
函数 f ( x , y ) f(x, y) f(x,y)在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0)处的偏导可以记作: ∇ f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) + f y ( x 0 , y 0 ) \nabla f(x_0, y_0) = f_x(x_0, y_0) + f_y(x_0, y_0) f(x0,y0)=fx(x0,y0)+fy(x0,y0)

梯度

    由于偏导不能直接表示方向,所以这里选用单位方向向量 u = cos ⁡ θ i + sin ⁡ θ j u=\cos\theta i+\sin\theta j u=cosθi+sinθj,其中 θ \theta θ为单位向量与 x x x轴的夹角,此时带有方向的偏导可以表示为:
D ( x 0 , y 0 ) = f x ( x 0 , y 0 ) cos ⁡ θ + f y ( x 0 , y 0 ) sin ⁡ θ D(x_0, y_0)= f_x(x_0, y_0)\cos\theta + f_y(x_0, y_0)\sin\theta D(x0,y0)=fx(x0,y0)cosθ+fy(x0,y0)sinθ此时,就可以表示任意方向的偏导了。
    这里对该表达式 D D D做一下变换: A = ( f x ( x 0 , y 0 ) , f y ( x 0 , y 0 ) ) A=(f_x(x_0, y_0), f_y(x_0, y_0)) A=(fx(x0,y0),fy(x0,y0)) I = ( cos ⁡ θ , sin ⁡ θ ) I=(\cos\theta, \sin\theta) I=(cosθ,sinθ),则表达式 D D D的模为: ∣ D ∣ = ∣ A ∣ ⋅ ∣ I ∣ cos ⁡ α |D|=|A|\cdot|I|\cos\alpha D=AIcosα,其中 α \alpha α为向量 A A A与向量 I I I的夹角。
    这里我们可以很明显的看到,当 A A A I I I的方向相同时表达式 D D D的模最大,同理,当方向相反时,梯度最小,也就是梯度的反方向是函数下降最快的方向。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值