梯度与导数的关系与区别
1. 关系
-
定义:梯度是多变量函数偏导数的向量形式。
- 对于 ( f(x, y) ),梯度为:
∇ f = ( ∂ f ∂ x , ∂ f ∂ y ) \nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) ∇f=(∂x∂f,∂y∂f)
- 对于 ( f(x, y) ),梯度为:
-
联系:偏导数是导数在多维的扩展,梯度将所有偏导数整合成一个向量。
2. 区别
- 维度:
- 导数:单变量函数,结果为标量(如斜率)。
- 梯度:多变量函数,结果为向量。
- 信息:
- 导数:仅表示单一方向的变化率。
- 梯度:同时表示变化率大小和最快增加方向。
- 适用场景:
- 导数:一维问题,如 ( f(x) = x^2 )。
- 梯度:多维优化,如 ( f(x, y) = x^2 + y^2 )。
3. 梯度方向
- 意义:梯度 grad f(x) 指向函数值增加最快的方向。
- 模 ( |grad f(x)| ) 表示变化率大小。
- 反方向:( -grad f(x)) 是函数值减小最快的方向。
梯度下降法与梯度上升法
梯度下降法 (Gradient Descent)
-
目标:找到函数 ( f(x) ) 的最小值。
-
方法:沿着梯度 ( grad f(x) ) 的反方向 ( -grad f(x) ) 移动,因为 ( -grad f(x) ) 是函数值减小最快的方向。
-
更新公式:
x n + 1 = x n − η ∇ f ( x n ) x_{n+1} = x_n - \eta \nabla f(x_n) xn+1=xn−η∇f(xn)
其中 ( \eta ) 是步长(学习率)。
梯度上升法 (Gradient Ascent)
-
目标:找到函数 ( f(x) ) 的最大值。
-
方法:直接沿着梯度 (grad f(x) ) 的方向移动,因为 ( grad f(x) ) 是函数值增加最快的方向。
-
更新公式:
x n + 1 = x n + η ∇ f ( x n ) x_{n+1} = x_n + \eta \nabla f(x_n) xn+1=xn+η∇f(xn)