为什么说梯度方向是函数值上升（的速率）最快的方向

最新推荐文章于 2022-12-10 21:46:27 发布

-倾城之恋-

最新推荐文章于 2022-12-10 21:46:27 发布

阅读量1.7k

点赞数 1

分类专栏：优化机器学习

本文链接：https://blog.csdn.net/P081513083/article/details/103480548

版权

机器学习同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

要说清楚这个问题，就要明白什么是函数值上升的速率，实际也就是方向导数。为弄清楚方向导数的含义，先来回顾一元函数导数定义：

导数

$f'(x_0)=\lim\limits_{x\rightarrow x_0}\frac{f(x)-f(x_0)}{x-x_0}$ 。
这里 $x$ 可以大于 $x_0$ ，也可以小于 $x_0$ 。导数的含义就是因变量随着自变量的变化而变化的快慢，或者因变量相应于自变量的变化率。具体意义就是：如果导数 $f'(x_0)>0$ ，说明，因变量随着自变量的增大 $x>x_0)$ 而增大，或者因变量随着自变量的减小( $x<x_0$ )而减小。如果导数 $f'(x_0)>0$ ，说明，因变量随着自变量的增大 $x>x_0)$ 而减小，或者因变量随着自变量的减小( $x<x_0$ )而增大。

方向导数

顾名思义，和方向有关的导数，实际含义是一个多元函数 $f$ ，在某一点的某一方向的导数。
在多元函数中，要考察函数值的变化趋势，因为自变量是高维空间(维度大于1)。因此需要考察函数值在某一点的某一方向的变化快慢。因此也可以看出，方向导数是个标量。（因为函数值也随着向量长度的变化而变化，我们不考虑向量长度带来的变化，因此该方向约束为单位向量： $\overrightarrow{PQ}=(cos\alpha,cos\beta)$ 单位向量。）
多元函数 $f$ ，在某一点 $P(x_0,y_0)$ 的某一方向 $\overrightarrow{PQ}$ 的导数定义。Q:(x,y)
$\frac{\varphi f}{\varphi \overrightarrow{PQ}}|_{(x_0,y_0)} \\=\lim\limits_{\overrightarrow{PQ}\rightarrow(0,0)}\frac{f(x,y)-f(x_0,y_0)}{|\overrightarrow{PQ}|}$
如何计算方向导数呢？借助泰勒展开式得。
$=\lim\limits_{\overrightarrow{PQ}\rightarrow(0,0)}\frac{f_x(x_0,y_0)(x-x_0)+f_y(x_0,y_0)(y-y_0)+o(\sqrt{(x-x_0)^2+(y-y_0)^2})}{|\overrightarrow{PQ}|} \\=\lim\limits_{\overrightarrow{PQ}\rightarrow(0,0)}f_x(x_0,y_0)\frac{(x-x_0)}{|\overrightarrow{PQ}|}+f_y(x_0,y_0)\frac{(y-y_0)}{\overrightarrow{PQ}} \\=\lim\limits_{\overrightarrow{PQ}\rightarrow(0,0)}f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta$
其中 $\alpha$ 为 $\overrightarrow{PQ}$ 与 $x$ 轴正方向的夹角， $\beta$ 为 $\overrightarrow{PQ}$ 与 $y$ 轴正方向的夹角。 $0\leq\alpha\leq\pi,0\leq\beta\leq\pi$ 。由方向角或者方向余弦概念可知 $cos\alpha^2+cos\beta^2=1$ 。

梯度

定义grad $f(x_0,y_0)$ 或 $\nabla f(x_0,y_0)=(f_x(x_0,y_0),f_y(x_0,y_0))$ 为函数在点(x_0,y_0)处的梯度。
则上式可写为：
$\frac{\varphi f}{\varphi \overrightarrow{PQ}}|_{(x_0,y_0)}=\nabla f(x_0,y_0)\cdot\overrightarrow{PQ}=|\nabla f(x_0,y_0)|*|\overrightarrow{PQ}|*cos\theta=|\nabla f(x_0,y_0)|*cos\theta$ ， $\theta$ 为两向量夹角， $\theta\in[0,\pi]$ 。
由此可以看出，函数 $f$ 在点 $P$ 的方向 $\overrightarrow{PQ}$ 的方向导数就是函数 $f$ 在点 $P$ 的梯度在 $\overrightarrow{PQ}$ 方向上的投影。

在知道了方向导数求法后，我们希望知道某一点的方向导数的最大值，也就是变化最快的方向。
$\frac{\varphi f}{\varphi \overrightarrow{PQ}}|_{(x_0,y_0)}=|\nabla f(x_0,y_0)|*cos\theta$
(因为 $\overrightarrow{PQ}=(cos\alpha,cos\beta)$ 是单位向量。)
随着方向的变动， $|\nabla f(x_0,y_0)|$ 保持不变。
1）当 $\theta=0$ ，即 $\overrightarrow{PQ}$ 为梯度方向时， $\frac{\varphi f}{\varphi \overrightarrow{PQ}}|_{(x_0,y_0)}$ 最大，等于此点梯度的模。
所以我们说梯度方向是函数值上升(的速率)最快的方向。
2）同理， $\theta=\pi$ ，即 $\overrightarrow{PQ}$ 为负梯度方向时， $\frac{\varphi f}{\varphi \overrightarrow{PQ}}|_{(x_0,y_0)}$ 最小，等于此点梯度的模的相反数。
也就是说，负梯度方向是函数值下降(的速率)最快的方向。

从另一角度来说

梯度由偏导数组成，偏导数和导数意义类似。
当偏导数 $f_x(x_0,y_0)>0$ ，说明因变量随着自变量 $x$ 的增大而增大。要想因变量增大，自变量的位移 $\Delta x$ 应该大于0。前进方向和偏导数指向方向一致， $x+\Delta x$ 。
当偏导数 $f_x(x_0,y_0)<0$ ，说明因变量随着自变量 $x$ 的增大而减小。要想因变量增大，自变量的位移 $\Delta x$ 应该小于0。前进方向和偏导数指向方向一致，依然只需 $x+\Delta x$ 。
因此梯度方向始终是函数值增大的方向。