为什么沿梯度反方向下降最快

CV-ROBOT

已于 2024-06-16 16:56:11 修改

阅读量425

点赞数

文章标签：机器学习人工智能

于 2024-06-16 16:49:33 首次发布

本文链接：https://blog.csdn.net/aabbccas/article/details/139719975

版权

梯度下降原理的数学推导

定义当前点：
设当前点为 $\theta_0$ ，在这个点计算目标函数 $J(\theta)$ 的梯度 $\nabla J(\theta_0)$ 。
更新规则：
根据梯度下降的更新规则，新的点 $\theta_1$ 可以表示为：
$\theta_1 = \theta_0 - \epsilon \nabla J(\theta_0)$ ，
其中， $\epsilon$ 为学习率。
泰勒展开：
通过泰勒展开近似 $J(\theta)$ 在 $\theta_0$ 处的值，可以得到： $J(\theta_1)$
$J(\theta_1)\approx J(\theta_0) + \nabla J(\theta_0)^T (\theta_1 - \theta_0)$ 。
代入新的点：
根据梯度下降更新公式，新的点 (\theta_1) 可以表示为：
$\theta_1 = \theta_0 - \epsilon \nabla J(\theta_0)$ 。

代入 $\theta_1 - \theta_0$ 的值：
$J(\theta_1) \approx J(\theta_0) + \nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0))$ 。
计算内积：
$\nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0))$ 是一个内积，表示梯度向量的平方范数乘以 $-\epsilon$ ：
$\nabla J(\theta_0)^T (-\epsilon \nabla J(\theta_0)) = -\epsilon \|\nabla J(\theta_0)\|^2$ 。
函数值变化：
代入内积的结果到泰勒展开式中：
$J(\theta_1) \approx J(\theta_0) - \epsilon \|\nabla J(\theta_0)\|^2$ 。

这表示沿着 $-\nabla J(\theta_0)$ 方向移动一小步 $\epsilon$ 后，函数值减少的量为 $\epsilon \|\nabla J(\theta_0)\|^2$ 。

为什么是最快的？

为了更直观地理解，我们可以从方向导数的角度来看：

方向导数：
方向导数表示函数在某一特定方向上的变化率。梯度的一个重要性质是，梯度的方向是使函数值增长最快的方向。相反，梯度的反方向则是使函数值下降最快的方向。具体而言，在一个点 $\theta_0$ 处，函数 $J(\theta)$ 在任意方向 $\mathbf{d}$ 上的方向导数 $D_{\mathbf{d}}J(\theta_0)$ 定义为：
$D_{\mathbf{d}}J(\theta_0) = \nabla J(\theta_0)^T \mathbf{d}$ 。
梯度反方向：
梯度反方向 $\mathbf{d} = -\nabla J(\theta_0)$ 是函数值下降最快的方向。计算沿此方向的方向导数：
$D_{-\nabla J(\theta_0)}J(\theta_0) = \nabla J(\theta_0)^T (-\nabla J(\theta_0)) = -\|\nabla J(\theta_0)\|^2$ 。

这意味着在该方向上，函数值的变化速率是最大的（负号表示减少）。

与其他方向的比较

假设我们选择任意一个方向 $\mathbf{d}$ ，其方向导数为：
$D_{\mathbf{d}}J(\theta_0) = \nabla J(\theta_0)^T \mathbf{d}$ 。
如果 $\mathbf{d}$ 与 $\nabla J(\theta_0)$ 的夹角不为 180 度，内积 $\nabla J(\theta_0)^T D_{\mathbf{d}}$ 的绝对值小于 $\|\nabla J(\theta_0)\|^2$ 。因此，沿着其他方向的函数值减少量不如沿 $-\nabla J(\theta_0)$ 方向的减少量大。

结论

沿着 $-\nabla J(\theta_0)$ 方向移动，使函数值减少的量是 $\epsilon \|\nabla J(\theta_0)\|^2$ ，这是在当前点处函数值下降最快的方向。任何其他方向的减少量都不会超过这一量值。这正是梯度下降法的核心思想，利用梯度信息确保每次迭代都能最大程度地降低目标函数的值。

补充

方向导数的推导过程

方向导数（Directional Derivative）用于衡量在给定方向上的函数的变化率。设 $f (x, y)$ 是一个二元函数，向量 $\mathbf{v} = (a, b)$ 是一个单位向量，我们希望在这个方向上计算函数 $f$ 的导数。推导方向导数的过程如下：

1. 定义方向导数

设 $\mathbf{u}$ 是方向向量 $\mathbf{v}$ 的单位向量，即 $\mathbf{u} = \frac{\mathbf{v}}{|\mathbf{v}|}$ 。方向导数

$D_{\mathbf{u}}f$ 在点 $x_0, y_0)$ 处定义为：

$D_{\mathbf{u}}f(x_0, y_0) = \lim_{h \to 0} \frac{f(x_0 + ha, y_0 + hb) - f(x_0, y_0)}{h}$

2. 函数在单位向量方向上的变化

考虑沿单位向量 $\mathbf{u}$ 移动一个小步长 $h$ ，则新的点坐标为 $x_0 + ha, y_0 + hb)$ 。我们用泰勒展开公式近似 $f(x_0 + ha, y_0 + hb)$ ：

$f(x_0 + ha, y_0 + hb) \approx f(x_0, y_0) + \frac{\partial f}{\partial x}(x_0, y_0) \cdot ha + \frac{\partial f}{\partial y}(x_0, y_0) \cdot hb$

3. 计算极限

将泰勒展开公式代入方向导数的定义：
$D_{\mathbf{u}}f(x_0, y_0) = \lim_{h \to 0} \frac{f(x_0 + ha, y_0 + hb) - f(x_0, y_0)}{h}$

$\approx \lim_{h \to 0} \frac{f(x_0, y_0) + \frac{\partial f}{\partial x}(x_0, y_0) \cdot ha + \frac{\partial f}{\partial y}(x_0, y_0) \cdot hb - f(x_0, y_0)}{h}$

= $\lim_{h \to 0} \frac{ha \cdot \frac{\partial f}{\partial x}(x_0, y_0) + hb \cdot \frac{\partial f}{\partial y}(x_0, y_0)}{h}$

= a $\cdot \frac{\partial f}{\partial x}(x_0, y_0) + b \cdot \frac{\partial f}{\partial y}(x_0, y_0)$

4. 方向导数的公式

因此，函数 $f$ 在点 $x_0, y_0)$ 处沿方向 $\mathbf{u} = (a, b)$ 的方向导数为：

$D_{\mathbf{u}}f(x_0, y_0) = a \cdot \frac{\partial f}{\partial x}(x_0, y_0) + b \cdot \frac{\partial f}{\partial y}(x_0, y_0)$

这个公式表明，方向导数可以通过梯度 $\nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)$ 与方向向量 $\mathbf{u}$ 的点积来计算：

$D_{\mathbf{u}}f = \nabla f \cdot \mathbf{u} = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) \cdot (a, b)$

总结

方向导数测量了函数在特定方向上的变化率。其计算过程是通过梯度与方向向量的点积来实现的。在具体的应用中，只需知道函数的偏导数和方向向量，就可以方便地计算出方向导数。

CV-ROBOT

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
为什么沿梯度反方向下降最快

方向导数方向导数表示函数在某一特定方向上的变化率。梯度的一个重要性质是，梯度的方向是使函数值增长最快的方向。相反，梯度的反方向则是使函数值下降最快的方向。具体而言，在一个点θ0\theta_0θ0处，函数JθJ(\theta)Jθ在任意方向d\mathbf{d}d上的方向导数DdJθ0DdJθ0DdJθ0∇Jθ0TdDdJθ0∇Jθ0Td。梯度反方向梯度反方向d−∇Jθ0d−∇。
复制链接

扫一扫