方向导数和梯度——概念和公式整理

小李子-_-

已于 2024-09-13 10:51:05 修改

阅读量4.5k

点赞数 7

分类专栏：杂七杂八文章标签：人工智能机器学习

于 2024-09-12 22:31:52 首次发布

本文链接：https://blog.csdn.net/m0_46610658/article/details/142110650

版权

杂七杂八专栏收录该内容

6 篇文章

订阅专栏

1. 方向余弦

在二维空间中(X-Y平面)，向量 $\boldsymbol{l}=(a,b)$ ，这个向量 $\boldsymbol{l}$ 与坐标轴x和y的夹角分别为 $\alpha$ 和 $\beta$ ，如下图1所示。
在这里插入图片描述

图1 方向余弦

其中 $\alpha$ 和 $\beta$ 为向量 $\boldsymbol{l}$ 的方向角。向量 $\boldsymbol{l}$ 的方向余弦为： $\cos\alpha=\frac{a}{\sqrt{a^2+b^2}}$ 、 $\cos\beta=\frac{b}{\sqrt{a^2+b^2}}$ ，且 $(\cos\alpha)^2+(\cos\beta)^2=1$ 。(方向余弦是该向量 $\boldsymbol{l}$ 对应的单位向量的坐标)。假设 $\boldsymbol{l_0}$ 为向量 $\boldsymbol{l}$ 对应的单位向量，则
$\boldsymbol{l_0}=(\frac{a}{\sqrt{a^2+b^2}},\frac{b}{\sqrt{a^2+b^2}})=(\cos\alpha,\cos\beta)$
单位向量 $\boldsymbol{l_0}$ 的模： $|\boldsymbol{l_0}|=\sqrt{(\cos\alpha)^2+(\cos\beta)^2}=1$

2. 方向导数

2.1 初识方向导数

方向导数本质上是一个数值，可理解为一个函数 $f (x, y)$ 在某个点A( $x_0,y_0,z_0$ )处沿指定方向的变化率(切线的斜率，偏导数)。因此，构建方向导数需要两个元素：函数、指定方向(方向向量)。对于二元函数 $f (x, y)$ ，对 $x$ 的偏导数 $f^{'}_x (x_0,y_0)$ 指的是：函数 $f (x, y)$ 在点 $x_0,y_0,z_0)$ 处沿着 $x$ 坐标轴的变化率；对 $y$ 的偏导数 $f^{'}_y (x_0,y_0)$ 指的是：函数 $f (x, y)$ 在点 $x_0,y_0,z_0)$ 处沿着 $y$ 坐标轴的变化率。这里的 $x$ 和 $y$ 坐标轴可看作是方向向量，那么 $x$ 坐标轴对应的方向向量可以是 $(1, 0)$ ， $y$ 坐标轴对应的方向向量可以是 $(0, 1)$ 。

上面我们也说了，对 $x$ , $y$ 的偏导数其实就是二元函数 $f (x, y)$ 在某个点( $x_0,y_0,z_0$ )处沿着 $x$ , $y$ 坐标轴的变化率。先看下图2，从图2中可知：显然从点 A $x_0,y_0,z_0)$ 出发，可不止一个方向，而是360°都有方向，且每个方向都有方向导数。那么可以这样说：方向导数是沿着任意一指定方向的变化率，不一定是沿着 $x$ , $y$ 坐标轴。简而言之，方向导数是沿着各个方向上的导数。当然，与普通函数的导数类似，方向导数也不是百分之百存在，需要函数满足在某点处可微，才能计算出该函数在该点的方向导数。

在这里插入图片描述

图 2 方向导数1

2.2 通俗理解方向导数

对于这个函数 $z = f (x, y)$ ，在点 $x_0,y_0,z_0)$ 处的方向导数不唯一，沿着不同的方向都可以确定一个方向导数。这就好比我们现在处于山中的某一点，如果我们想下山，道路并不是唯一的，而是可以沿任何方向移动的。区别在于有些方向可以让我们下山的速度更快，有些方向让我们下山的速度更慢，有些方向甚至引导我们往山顶走（也可以理解为下山速度时负的）。这里的"速度的值"就是方向导数的直观理解。
（这一段话来自：终于理解了方向导数与梯度）

2.3 和方向导数相关的公式

2.3.1 方向导数的定义公式

假设向量 $\boldsymbol{l}$ 的单位方向向量为 $\boldsymbol{l_0}=(\cos\alpha,\cos\beta)$ ，若下列极限存在，则该极限称为函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 处沿着方向 $\boldsymbol{l}$ (也就是沿着向量 $\boldsymbol{l}$ 的方向) 的方向导数，记作：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}= \lim_{t \rightarrow 0^+} \frac{f(x_0+t\cos \alpha,y_0+t\cos \beta)-f(x_0,y_0)}{t}$

我们可以结合下图3来理解上面的公式。从图3可以得出：方向向量 $\boldsymbol{l}=(t\cos\alpha,t\cos\beta)$ ，那么单位方向向量 $\boldsymbol{l_0}=(\cos\alpha,\cos\beta)$ ；点A坐标 $x_0,y_0)$ ；点B坐标 $(x_0+t\cos\alpha,y_0+t\cos\beta)$ ； $t$ 表示向量 $\boldsymbol{l}$ 的模(大小)。自变量 $(x, y)$ 从A点 $x_0,y_0)$ 走到了B点 $(x_0+t\cos\alpha,y_0+t\cos\beta)$ ，那么因变量 $z = f (x, y)$ 也会发生改变，即变化量 $\triangle z=f(x_0+t\cos \alpha,y_0+t\cos \beta)-f(x_0,y_0)$ 。

在这里插入图片描述

图 3 方向导数2

所以函数 $f (x, y)$ 在某点 $x_0,y_0)$ 处沿着方向向量 $\boldsymbol{l}$ 的方向导数(变化率)可以写成：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}= \lim_{t \rightarrow 0^+} \frac{\triangle z}{t}= \lim_{t \rightarrow 0^+} \frac{f(x_0+t\cos \alpha,y_0+t\cos \beta)-f(x_0,y_0)}{t}$

对于上面的公式，如果 $\alpha=0,\beta=90°$ ，那么方向向量 $\boldsymbol{l}=(t,0)$ ，则方向向量 $\boldsymbol{l}$ 平行于 $x$ 轴，此时就变成了对 $x$ 的偏导数了。如下公式所示：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}= \lim_{t \rightarrow 0^+} \frac{f(x_0+t,y_0)-f(x_0,y_0)}{t}=f^{'}_x(x_0,y_0)$
同理，如果 $\alpha=90°,\beta=0$ ，那么方向向量 $\boldsymbol{l}=(0,t)$ ，则方向向量 $\boldsymbol{l}$ 平行于 $y$ 轴，此时就变成了对 $y$ 的偏导数了。如下公式所示：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}= \lim_{t \rightarrow 0^+} \frac{f(x_0,y_0+t)-f(x_0,y_0)}{t}=f^{'}_y(x_0,y_0)$

2.3.2 方向导数的计算公式

如果函数 $z = f (x, y)$ 在点 A $x_0,y_0)$ 处可微，则函数 $z = f (x, y)$ 在点 A $x_0,y_0)$ 处沿着任意方向的方向导数都存在，且方向导数为：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}= f^{'}_x(x_0,y_0)\cos\alpha+f_y^{'}(x_0,y_0)\cos\beta$
其中， $\cos\alpha$ 、 $\cos\beta$ 是方向向量 $\boldsymbol{l}$ 的方向余弦，或者说 $\cos\alpha$ 、 $\cos\beta$ 是单位向量 $\boldsymbol{l_0}=(\cos\alpha,\cos\beta)$ 对应的 $x$ 和 $y$ 的坐标； $f^{'}_x(x_0,y_0)$ 是在 $x_0,y_0)$ 处对 $x$ 的偏导数； $f^{'}_y(x_0,y_0)$ 是在 $x_0,y_0)$ 处对 $y$ 的偏导数。

下面我推导一下上面的公式是怎样得到的（下面的推导看不看都行）。
$\begin{align*} \frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)} =&\lim_{t \rightarrow 0^+} \frac{f(x_0+t\cos \alpha,y_0+t\cos \beta)-f(x_0,y_0)}{t} \\ =&\lim_{t \rightarrow 0^+} \frac{f(x_0+t\cos \alpha,y_0+t\cos \beta)-f(x_0,y_0+t\cos \beta)}{t} \\ & +\lim_{t \rightarrow 0^+} \frac{f(x_0,y_0+t\cos \beta)-f(x_0,y_0)}{t} \\ &(此处，令\triangle x=t\cos \alpha,\triangle y=t\cos \beta,由此可得到：) \\ =&\lim_{\triangle x \rightarrow 0^+} \frac{f(x_0+\triangle x,y_0+t\cos \beta)-f(x_0,y_0+t\cos \beta)}{\triangle x} \cos \alpha \\ & +\lim_{\triangle y \rightarrow 0^+} \frac{f(x_0,y_0+\triangle y)-f(x_0,y_0)}{\triangle y}\cos \beta \\ =& f^{'}_x(x_0,y_0)\cos\alpha+f_y^{'}(x_0,y_0)\cos\beta \end{align*}$

2.3.2 方向导数的例题

上面讲的都是二元函数 $z = f (x, y)$ ，对于三元函数 $u = f (x, y, z)$ ，其方向导数公式如下：
$\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0,z_0)}= f^{'}_x(x_0,y_0,z_0)\cos\alpha+f_y^{'}(x_0,y_0,z_0)\cos\beta+f^{'}_z(x_0,y_0,z_0)\cos\gamma$

其中， $\cos\alpha$ 、 $\cos\beta$ 和 $\cos\gamma$ 是方向向量 $\boldsymbol{l}$ 的方向余弦，或者说 $\cos\alpha$ 、 $\cos\beta$ 和 $\cos\gamma$ 是单位向量 $\boldsymbol{l_0}=(\cos\alpha,\cos\beta,\cos\gamma)$ 对应的 $x$ 、 $y$ 和 $z$ 的坐标； $f^{'}_x(x_0,y_0,z_0)$ 是在 $x_0,y_0,z_0)$ 处对 $x$ 的偏导数； $f^{'}_y(x_0,y_0,z_0)$ 是在 $x_0,y_0,z_0)$ 处对 $y$ 的偏导数； $f^{'}_z(x_0,y_0,z_0)$ 是在 $x_0,y_0,z_0)$ 处对 $z$ 的偏导数。

经过我上面的解释，相信大家应该能看懂下面的例题解答。

在这里插入图片描述

图 4 例题

3.梯度

3.1 梯度定义

梯度是一个向量，它既有大小（其大小为最大的方向导数），也有方向。梯度指向函数增长最快的方向，即梯度的方向就是函数变化率(切线的斜率，偏导数)最大的方向。我在网上找到的梯度的定义如下：在这里插入图片描述

图 5 梯度的定义

从上面的定义可知：梯度 $f(x_0,y_0)=\nabla f(x_0,y_0)=f^{'}_x(x_0,y_0)\boldsymbol{i}+f^{'}_y(x_0,y_0)\boldsymbol{j}$ 。下面简单说一下，在向量表示中经常遇到的 $\boldsymbol{i}、\boldsymbol{j}、\boldsymbol{k}$ 是什么意思。

在三维空间直角坐标系中， $\boldsymbol{i}、\boldsymbol{j}、\boldsymbol{k}$ 分别表示与 $x$ 轴、 $y$ 轴、 $z$ 轴方向相同的单位向量，是表示空间向量的一组基底，坐标表示为： $\boldsymbol{i}=(1,0,0)、\boldsymbol{j}=(0,1,0)、\boldsymbol{k}=(0,0,1)$ 。在三维空间中，任何一个向量都可以通过这三个基向量( $\boldsymbol{i}、\boldsymbol{j}、\boldsymbol{k}$ )的线性组合来表示。例如：一个向量表示为 $A=2\boldsymbol{i}+3\boldsymbol{j}-\boldsymbol{k}$ ，表明 $A$ 向量在 $x$ 轴方向上延伸了2个单位；在 $y$ 轴方向上延伸了3个单位；在 $z$ 轴方向上缩短(负方向)了1个单位。直观理解就是：你可以把向量 $A=2\boldsymbol{i}+3\boldsymbol{j}-\boldsymbol{k}$ 看成是从原点 $(0, 0, 0)$ 到点 $(2, 3, - 1)$ 的一个箭头(或一个向量)，这些系数 $(2, 3, - 1)$ 分别表示该箭头(向量)在三个坐标轴上的投影长度，在对应轴上的投影长度分别是 2、3 和 -1。

通过上面对 $\boldsymbol{i}、\boldsymbol{j}、\boldsymbol{k}$ 的描述，我们应该知道梯度 $f(x_0,y_0)=\nabla f(x_0,y_0)$ 表示在 $x$ 轴的投影长度为 $f^{'}_x(x_0,y_0)$ ，在 $y$ 轴的投影长度为 $f^{'}_y(x_0,y_0)$ 。我们还可以用另外一种方式来表示梯度，即 $f(x_0,y_0)=\nabla f(x_0,y_0)=(f^{'}_x(x_0,y_0),f^{'}_y(x_0,y_0))(\boldsymbol{i},\boldsymbol{j})$ ，向量 $f^{'}_x(x_0,y_0),f^{'}_y(x_0,y_0))$ 就是函数 $f (x, y)$ 在点 $x_0,y_0)$ 处的梯度 $grad f(x_0,y_0)$ 。

最后总结一下：多元函数 $f(x,y,z,\ldots)$ 在点 $(x_0,y_0,z_0,\ldots)$ 处每个变量方向上的偏导数所组成的向量就是梯度，即 $\nabla f(x_0,y_0,z_0,\ldots) = (f^{'}_x,f^{'}_y,f^{'}_z,\ldots)$ 。

3.2 梯度和方向导数的关系

方向导数是一个标量(数值)，描述函数在特定方向上的变化率，是梯度与该单位方向向量的点积(或者说是梯度在单位方向向量上的投影)。函数在某点处的梯度是一个向量，在梯度方向上的方向导数最大，而梯度的模(大小)为方向导数的最大值。梯度的方向就是二元函数 $f (x, y)$ 在点 $x_0,y_0)$ 处增长最快的方向。二者之间的关系可以参考下图6：
在这里插入图片描述

图 6 梯度和方向导数的区别

（1）先解释一下：为什么 $f^{'}_x(x_0,y_0)\cos\alpha+f_y^{'}(x_0,y_0)\cos\beta=grad f(x_0,y_0)\cdot e_l$ 。

这是因为 $f^{'}_x(x_0,y_0)\cos\alpha+f_y^{'}(x_0,y_0)\cos\beta=(f^{'}_x(x_0,y_0),f_y^{'}(x_0,y_0))\cdot(\cos\alpha,\cos\beta)$ ，将方向导数的计算转为向量的点积形式。我们从上面可知梯度 $grad f(x_0,y_0)=(f^{'}_x(x_0,y_0),f_y^{'}(x_0,y_0))$ ， $e_l=(\cos\alpha,\cos\beta)$ 。所有上述等式成立。

（2）再解释一下：方向导数 $\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}=grad f(x_0,y_0) \cdot e_l=|grad f(x_0,y_0)| \cos\theta$ 。即：方向导数是梯度与该单位方向向量的点积(或者说是梯度在单位方向向量上的投影)

我们知道梯度 $grad f(x_0,y_0)$ 是一个向量， $e_l$ 是单位方向向量。因此方向导数的计算可以转换为两个向量的点乘(点积、内积)，计算向量的点乘有两种方式：

点积表示： $\boldsymbol{a} \cdot \boldsymbol{b}=a_1b_1+a_2b_2+⋯+a_nb_n$ ；
几何表示： $\boldsymbol{a} \cdot \boldsymbol{b}=|a|\cdot|b|\cos\theta$ 。
关于向量的描述可以参考：向量——通俗地解释

（3）最后解释一下：梯度方向上的方向导数最大，而梯度的模(大小、值)是方向导数中的最大值。
从下图7我们可以看出：单位方向向量 $e_l$ 指向不同的角度时，向量 $e_l$ 与梯度 $grad f(x_0,y_0)$ 的夹角 $\theta$ 是不一样的，那么 $\cos \theta$ 的值不同的。从上面可知：方向导数 $\frac{\partial f}{\partial \boldsymbol{l}} |_{(x_0,y_0)}=grad f(x_0,y_0) \cdot e_l=|grad f(x_0,y_0)| \cos\theta$ ，梯度的模 $grad f(x_0,y_0)|$ 是固定不变的，因此当单位方向向量 $e_l$ 指向不同的角度时，其方向导数是不同的。其中：

当 $\theta=0$ 时，单位方向向量 $e_l$ 与梯度方向处于同一方向，此时方向导数取最大值，且最大值为梯度的模(大小、值)。即：沿着梯度方向上的方向导数最大，而梯度的模(大小、值)是方向导数中的最大值；
当 $\theta=\frac{\pi}{2}$ 时，单位方向向量 $e_l$ 与梯度方向正交(两向量垂直，点积为0)，此时方向导数为0；
当 $\theta={\pi}$ 时，单位方向向量 $e_l$ 与梯度方向相反，此时方向导数为最小值。

在这里插入图片描述

图 7 梯度和方向导数的关系

扩展理解：依然采用下山的例子来解释。我们想要走到山下，道路有千万条，但总有一条可以让我们以最快的速度下山。当然，这里的最快速度仅仅作用在当前的位置点上(局部最优并不是全局最优)，也就是说在当前位置A我们选择一个方向往山下走，走了一步之后到达了另外一个位置B，然后我们在B位置计算梯度方向，并沿该方向到达位置处c，重复这个过程一直到终点。但是，如果我们把走的每一步连接起来构成下山的完整路线，这条路线可能并不是下山的最快最优路线。

原因是什么？可以用一句古诗来解释：“不识庐山真面目，只缘身在此山中。”因为我们在山上的时候是不知道山的具体形状的，因此无法找到一条全局最优路线。那我们只能关注脚下的路，将每一步走好，这就是梯度下降法的原理。

扩展一下：
（1）对于一个多元函数 $f (x, y, z, \dots)$ ，我们通常使用 $\bigtriangledown f$ 表示该函数的梯度，包含了函数在每个变量方向上的偏导数。即： $\bigtriangledown f=(\frac{\partial f}{\partial \boldsymbol{x}},\frac{\partial f}{\partial \boldsymbol{y}},\frac{\partial f}{\partial \boldsymbol{z}},…)$ 。
（2）对于一个多元函数 $f (x, y, z, \dots)$ 和单位向量 $\boldsymbol{u}$ ，其在点 P 的方向导数 $D_uf$ 可以表示为
$D_uf=\bigtriangledown f \cdot \boldsymbol{u}$
以后遇见这些特殊的符号能知道啥意思就行，我觉得反正本质上并没有啥区别，但符号表示就是不一样(吐槽一下：明明很简单、通俗易懂的东西，有时候就非得用一些所谓高大上、装B的数学符号、数学公式来描述、来表示，因为这样才会显得有水平。唉，难搞啊，搞不懂为什么会这样。我只是发个牢骚，简单吐槽一下，没有别的意思。其实既然存在，那么应该有它存在的道理)。