为什么沿梯度反方向下降最快

梯度下降原理的数学推导

  1. 定义当前点
    设当前点为 θ 0 \theta_0 θ0,在这个点计算目标函数 J ( θ ) J(\theta) J(θ) 的梯度 ∇ J ( θ 0 ) \nabla J(\theta_0) J(θ0)

  2. 更新规则
    根据梯度下降的更新规则,新的点 θ 1 \theta_1 θ1 可以表示为:
    θ 1 = θ 0 − ϵ ∇ J ( θ 0 ) \theta_1 = \theta_0 - \epsilon \nabla J(\theta_0) θ1=θ0ϵJ(θ0)
    其中, ϵ \epsilon ϵ 为学习率。

  3. 泰勒展开
    通过泰勒展开近似 J ( θ ) J(\theta) J(θ) θ 0 \theta_0 θ0 处的值,可以得到: J ( θ 1 ) J(\theta_1) J(θ1)
    J ( θ 1 ) ≈ J ( θ 0 ) + ∇ J ( θ 0 ) T ( θ 1 − θ 0 ) J(\theta_1)\approx J(\theta_0) + \nabla J(\theta_0)^T (\theta_1 - \theta_0) J(θ1)J(θ0)+J(θ0)T(θ1θ0)

  4. 代入新的点
    根据梯度下降更新公式,新的点 (\theta_1) 可以表示为:
    θ 1 = θ 0 − ϵ ∇ J ( θ 0 ) \theta_1 = \theta_0 - \epsilon \nabla J(\theta_0) θ1=θ0ϵJ(θ0)

    代入 θ 1 − θ 0 \theta_1 - \theta_0 θ1θ0 的值:
    J ( θ 1 ) ≈ J ( θ 0 ) + ∇ J ( θ 0 ) T ( − ϵ ∇ J ( θ 0 ) ) J(\theta_1) \approx J(\theta_0) + \nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0)) J(θ1)J(θ0)+J(θ0)T(ϵJ(θ0))

  5. 计算内积
    ∇ J ( θ 0 ) T ( − ϵ ∇ J ( θ 0 ) ) \nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0)) J(θ0)T(ϵJ(θ0)) 是一个内积,表示梯度向量的平方范数乘以 − ϵ -\epsilon ϵ
    ∇ J ( θ 0 ) T ( − ϵ ∇ J ( θ 0 ) ) = − ϵ ∥ ∇ J ( θ 0 ) ∥ 2 \nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0)) = -\epsilon \|\nabla J(\theta_0)\|^2 J(θ0)T(ϵJ(θ0))=ϵ∥∇J(θ0)2

  6. 函数值变化
    代入内积的结果到泰勒展开式中:
    J ( θ 1 ) ≈ J ( θ 0 ) − ϵ ∥ ∇ J ( θ 0 ) ∥ 2 J(\theta_1) \approx J(\theta_0) - \epsilon \|\nabla J(\theta_0)\|^2 J(θ1)J(θ0)ϵ∥∇J(θ0)2

    这表示沿着 − ∇ J ( θ 0 ) -\nabla J(\theta_0) J(θ0) 方向移动一小步 ϵ \epsilon ϵ后,函数值减少的量为 ϵ ∥ ∇ J ( θ 0 ) ∥ 2 \epsilon \|\nabla J(\theta_0)\|^2 ϵ∥∇J(θ0)2

为什么是最快的?

为了更直观地理解,我们可以从方向导数的角度来看:

  1. 方向导数
    方向导数表示函数在某一特定方向上的变化率。梯度的一个重要性质是,梯度的方向是使函数值增长最快的方向。相反,梯度的反方向则是使函数值下降最快的方向。具体而言,在一个点 θ 0 \theta_0 θ0 处,函数 J ( θ ) J(\theta) J(θ) 在任意方向 d \mathbf{d} d 上的方向导数 D d J ( θ 0 ) D_{\mathbf{d}}J(\theta_0) DdJ(θ0)定义为:
    D d J ( θ 0 ) = ∇ J ( θ 0 ) T d D_{\mathbf{d}}J(\theta_0) = \nabla J(\theta_0)^T \mathbf{d} DdJ(θ0)=J(θ0)Td

  2. 梯度反方向
    梯度反方向 d = − ∇ J ( θ 0 ) \mathbf{d} = -\nabla J(\theta_0) d=J(θ0)是函数值下降最快的方向。计算沿此方向的方向导数:
    D − ∇ J ( θ 0 ) J ( θ 0 ) = ∇ J ( θ 0 ) T ( − ∇ J ( θ 0 ) ) = − ∥ ∇ J ( θ 0 ) ∥ 2 D_{-\nabla J(\theta_0)}J(\theta_0) = \nabla J(\theta_0)^T (-\nabla J(\theta_0)) = -\|\nabla J(\theta_0)\|^2 DJ(θ0)J(θ0)=J(θ0)T(J(θ0))=∥∇J(θ0)2

    这意味着在该方向上,函数值的变化速率是最大的(负号表示减少)。

与其他方向的比较

假设我们选择任意一个方向 d \mathbf{d} d,其方向导数为:
D d J ( θ 0 ) = ∇ J ( θ 0 ) T d D_{\mathbf{d}}J(\theta_0) = \nabla J(\theta_0)^T \mathbf{d} DdJ(θ0)=J(θ0)Td
如果 d \mathbf{d} d ∇ J ( θ 0 ) \nabla J(\theta_0) J(θ0) 的夹角不为 180 度,内积 ∇ J ( θ 0 ) T D d \nabla J(\theta_0)^T D_{\mathbf{d}} J(θ0)TDd 的绝对值小于 ∥ ∇ J ( θ 0 ) ∥ 2 \|\nabla J(\theta_0)\|^2 ∥∇J(θ0)2。因此,沿着其他方向的函数值减少量不如沿 − ∇ J ( θ 0 ) -\nabla J(\theta_0) J(θ0)方向的减少量大。

结论

沿着 − ∇ J ( θ 0 ) -\nabla J(\theta_0) J(θ0) 方向移动,使函数值减少的量是 ϵ ∥ ∇ J ( θ 0 ) ∥ 2 \epsilon \|\nabla J(\theta_0)\|^2 ϵ∥∇J(θ0)2,这是在当前点处函数值下降最快的方向。任何其他方向的减少量都不会超过这一量值。这正是梯度下降法的核心思想,利用梯度信息确保每次迭代都能最大程度地降低目标函数的值。

补充

方向导数的推导过程

方向导数(Directional Derivative)用于衡量在给定方向上的函数的变化率。设 f ( x , y ) f(x, y) f(x,y) 是一个二元函数,向量 v = ( a , b ) \mathbf{v} = (a, b) v=(a,b) 是一个单位向量,我们希望在这个方向上计算函数 f f f的导数。推导方向导数的过程如下:

1. 定义方向导数

u \mathbf{u} u是方向向量 v \mathbf{v} v的单位向量,即 u = v ∣ v ∣ \mathbf{u} = \frac{\mathbf{v}}{|\mathbf{v}|} u=vv。方向导数

D u f D_{\mathbf{u}}f Duf在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0) 处定义为:

D u f ( x 0 , y 0 ) = lim ⁡ h → 0 f ( x 0 + h a , y 0 + h b ) − f ( x 0 , y 0 ) h D_{\mathbf{u}}f(x_0, y_0) = \lim_{h \to 0} \frac{f(x_0 + ha, y_0 + hb) - f(x_0, y_0)}{h} Duf(x0,y0)=limh0hf(x0+ha,y0+hb)f(x0,y0)

2. 函数在单位向量方向上的变化

考虑沿单位向量 u \mathbf{u} u 移动一个小步长 h h h,则新的点坐标为 ( x 0 + h a , y 0 + h b ) (x_0 + ha, y_0 + hb) (x0+ha,y0+hb)。我们用泰勒展开公式近似 f ( x 0 + h a , y 0 + h b ) f(x_0 + ha, y_0 + hb) f(x0+ha,y0+hb)

f ( x 0 + h a , y 0 + h b ) ≈ f ( x 0 , y 0 ) + ∂ f ∂ x ( x 0 , y 0 ) ⋅ h a + ∂ f ∂ y ( x 0 , y 0 ) ⋅ h b f(x_0 + ha, y_0 + hb) \approx f(x_0, y_0) + \frac{\partial f}{\partial x}(x_0, y_0) \cdot ha + \frac{\partial f}{\partial y}(x_0, y_0) \cdot hb f(x0+ha,y0+hb)f(x0,y0)+xf(x0,y0)ha+yf(x0,y0)hb

3. 计算极限

将泰勒展开公式代入方向导数的定义:
D u f ( x 0 , y 0 ) = lim ⁡ h → 0 f ( x 0 + h a , y 0 + h b ) − f ( x 0 , y 0 ) h D_{\mathbf{u}}f(x_0, y_0) = \lim_{h \to 0} \frac{f(x_0 + ha, y_0 + hb) - f(x_0, y_0)}{h} Duf(x0,y0)=limh0hf(x0+ha,y0+hb)f(x0,y0)

≈ lim ⁡ h → 0 f ( x 0 , y 0 ) + ∂ f ∂ x ( x 0 , y 0 ) ⋅ h a + ∂ f ∂ y ( x 0 , y 0 ) ⋅ h b − f ( x 0 , y 0 ) h \approx \lim_{h \to 0} \frac{f(x_0, y_0) + \frac{\partial f}{\partial x}(x_0, y_0) \cdot ha + \frac{\partial f}{\partial y}(x_0, y_0) \cdot hb - f(x_0, y_0)}{h} limh0hf(x0,y0)+xf(x0,y0)ha+yf(x0,y0)hbf(x0,y0)

= lim ⁡ h → 0 h a ⋅ ∂ f ∂ x ( x 0 , y 0 ) + h b ⋅ ∂ f ∂ y ( x 0 , y 0 ) h \lim_{h \to 0} \frac{ha \cdot \frac{\partial f}{\partial x}(x_0, y_0) + hb \cdot \frac{\partial f}{\partial y}(x_0, y_0)}{h} limh0hhaxf(x0,y0)+hbyf(x0,y0)

= a ⋅ ∂ f ∂ x ( x 0 , y 0 ) + b ⋅ ∂ f ∂ y ( x 0 , y 0 ) \cdot \frac{\partial f}{\partial x}(x_0, y_0) + b \cdot \frac{\partial f}{\partial y}(x_0, y_0) xf(x0,y0)+byf(x0,y0)

4. 方向导数的公式

因此,函数 f f f在点 ( x 0 , y 0 ) (x_0, y_0) (x0,y0) 处沿方向 u = ( a , b ) \mathbf{u} = (a, b) u=(a,b)的方向导数为:

D u f ( x 0 , y 0 ) = a ⋅ ∂ f ∂ x ( x 0 , y 0 ) + b ⋅ ∂ f ∂ y ( x 0 , y 0 ) D_{\mathbf{u}}f(x_0, y_0) = a \cdot \frac{\partial f}{\partial x}(x_0, y_0) + b \cdot \frac{\partial f}{\partial y}(x_0, y_0) Duf(x0,y0)=axf(x0,y0)+byf(x0,y0)

这个公式表明,方向导数可以通过梯度 ∇ f = ( ∂ f ∂ x , ∂ f ∂ y ) \nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) f=(xf,yf) 与方向向量 u \mathbf{u} u的点积来计算:

D u f = ∇ f ⋅ u = ( ∂ f ∂ x , ∂ f ∂ y ) ⋅ ( a , b ) D_{\mathbf{u}}f = \nabla f \cdot \mathbf{u} = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) \cdot (a, b) Duf=fu=(xf,yf)(a,b)

总结

方向导数测量了函数在特定方向上的变化率。其计算过程是通过梯度与方向向量的点积来实现的。在具体的应用中,只需知道函数的偏导数和方向向量,就可以方便地计算出方向导数。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值