深度学习基础 - 偏导数、方向导数、梯度

二分掌柜的

已于 2022-07-29 21:46:01 修改

阅读量2.5k

点赞数 6

分类专栏：深度学习基础文章标签：深度学习人工智能机器学习

于 2019-03-14 21:57:55 首次发布

本文链接：https://blog.csdn.net/flyfish1986/article/details/88562514

版权

深度学习基础专栏收录该内容

61 篇文章

订阅专栏

本文深入解析深度学习中关键的数学概念：偏导数、方向导数和梯度。从微积分的发展历程出发，阐述了这些概念的起源与演变，进而详细解释了它们在多元函数中的应用。通过具体的数学公式和几何直观，帮助读者理解这些概念如何在深度学习算法中起作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习的基础 - 偏导数、方向导数、梯度

flyfish

柯西将极限的定义引入了微积分，很创新。因为微积分的创造者们没有把一件事说明白，他用新的概念把这件事说明白了。问题变了，思维方式就变了，之前的人的问题是什么什么是多少，他的问题是如何定义“什么什么”的问题。他定义的框架把微积分的严谨度向前迈了一大步，所以问什么样的问题最重要。微积分的现代体系就是他建的。

数学有些地方又是借鉴物理知识，可以在后面的深度学习部分看到。从芝诺用不是数学的语言-大白话描述它，到现在都2500多年了。中国的先人们发现的什么什么定理领先西方多少多少年，到了明朝后期比较尴尬了，19世纪末期清代的李善兰把这个知识引入到中国。别人是先进的，那就无论好坏对错全盘吸收，然后持续积累改进迭代。如果后人把问题再变了，那又会离“微积分真理”又进了一步。人的语言可以表达不存在的东西，因相信而这不存在东西也就变得存在。

说梯度的时候，还得理解方向导数，偏导数。
最小化 f(x)的问题，如果是一元的，一个导数的概念就够了；如果是多元的，就出现了偏导数，方向导数，梯度的概念。
导数精确描述了函数变化率，变化率可理解为变量的变化“快慢”问题。研究变化率的问题之前的 y=kx+b,就一个未知数x，x也叫自变量，可以说一元函数，研究多元函数的时候就出现了偏导。偏可以理解成部分，多元就是一个自变量固定，在编程里叫常量。三维可以可视化易于理解，超过三维在我看来只能逻辑推理，所以用一元，二元来可视化理解。假设一个二元函数的偏导数，它反应的是函数沿坐标轴方向的变化率。一个点画线的时候可以朝着坐标轴方向，也可以朝着其他方向，其他方向就成了方向导数

偏导数
式子 $z = f (x, y)$ 的偏导数
函数在点 $x_0,y_0）$ 沿着 $x$ 轴方向的变化率
$\prime } \left( x _ { 0 } , y _ { 0 } \right) = \lim _ { \Delta x \rightarrow 0 } \frac { f \left( x _ { 0 } + \Delta x , y _ { 0 } \right) - f \left( x _ { 0 } , y _ { 0 } \right) } { \Delta x }$
函数在点 $x_0,y_0）$ 沿着 $y$ 轴方向的变化率
$\prime } \left( x _ { 0 } , y _ { 0 } \right) = \lim _ { \Delta y \rightarrow 0 } \frac { f \left( x _ { 0 } , y _ { 0 } + \Delta y \right) - f \left( x _ { 0 } , y _ { 0 } \right) } { \Delta y }$
定义偏导数是可以使用导数来定义，也可以使用极限来定义，甚至可以使用方向导数来定义

下面用数学语言来描述方向导数，用数学语言作为标杆，优点严谨，强逻辑，不产生歧义，缺点不易懂。之后我用大白话说明是什么问题。多本教科书均有定义，这里采用同济大学《高等数学第七版下册》103页的《方向导数与梯度》
原图是这样的
在这里插入图片描述

设 $l$ 是 $x O y$ 平面上以 $P_0(x_0,y_0)$ 为始点的一条射线， $e_l=(\cos \alpha,\cos \beta)$ 是与 $l$ l同方向的单位向量，射线 $l$ 的参数方程为

$\begin{array} { c } { x = x _ { 0 } + t \cos \alpha } \\ { y = y _ { 0 } + t \cos \beta } \\ { t \geqslant 0 } \end{array}$

设函数 $z = f (x, y)$ 在点 $P_0(x_0,y_0)$ 的某个领域 $U(P_0)$ 内有定义， $P(x_{0}+tcos\alpha,y_{0}+tcos\beta)$ 为 $l$ 上的另一点，且 $P\in U(P_{0})$ 。如果函数增量 ${f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}$ 与点 $P$ 到点 $P_0$ 的距离 $PP_0|=t$ 的比值
$\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}$

当 $P$ 沿着 $l$ 趋向于 $P_{0}(即t\rightarrow0^{+})$ 时的极限存在，则称此极限为函数 $f (x, y)$ 在点 $P_0$ 沿方向ll的方向导数

$\frac{\partial f}{\partial l} \mid_{(x_{0},y_{0})}=\lim_{t \rightarrow 0^{+}}\frac{f(x_{0}+tcos\alpha,y_{0}+tcos\beta)-f(x_{0},y_{0})}{t}`$
它要表达的图是这样的，耗时的画图，看的图简化下
在这里插入图片描述

单位向量 $e_l=(\cos \alpha,\cos \beta)$ 怎么解释
首先得有个向量假设叫它a，长度不能为0，还有个向量e，与a方向一样，长度是1,那么这个e就叫做向量a的单位向量。就像在坐标轴上画刻度，至于多大间隔为1，自己定。

这就是上面提到的单位向量 $e_l$
$(\cos \alpha,\cos \beta)$ a是向量 $e_l$ 的x轴坐标分量和y轴坐标分量，相当于直角三角形的斜边是1，根据前面的三角函数，知道了角度，可以计算对边和斜边。
图片中
$t*cos(alpha)=t*cos(\alpha)=\Delta x$
$t*cos(beta)=t*cos(\beta)=\Delta y$
就有了如下式子
$\rho = \left| P P _ { 0 } \right| = \sqrt { \Delta x ^ { 2 } + \Delta y ^ { 2 } } \ \\ \Delta z = f ( x + \Delta x , y + \Delta y ) - f ( x , y ) \\ \frac { \partial f } { \partial l } = \lim _ { \rho \rightarrow 0 } \frac { f ( x + \Delta x , y + \Delta y ) - f ( x , y ) } { \rho }$

方向导数
方向导数就像我们给地球定义了东西南北，正南正北刮的就像偏导数，地球上的风是可以按照任意方向刮的，就像方向导数。
偏导数1

$\frac{\partial f}{\partial x}(a,b) = \lim_{h\rightarrow 0} \frac{f(a+h,b) - f(a,b)}{h}.$

偏导数2

$\frac{\partial f}{\partial y}(a,b) = \lim_{h\rightarrow 0} \frac{f(a,b+h) - f(a,b)}{h}.$

方向导数

符号

$\nabla _{\mathbf {v}}{f}({\mathbf {x}})\sim {\frac {\partial {f({\mathbf {x}})}}{\partial {\mathbf {v}}}}\sim f'_{\mathbf {v} }({\mathbf {x}})\sim D_{\mathbf {v}}f({\mathbf {x}})\sim Df({\mathbf {x}})({\mathbf {v}})\sim \partial _{\mathbf {v}}f({\mathbf {x}})\sim \mathbf {v} \cdot {\nabla f({\mathbf {x}})}\sim {\mathbf {v}}\cdot {\frac {\partial f({\mathbf {x}})}{\partial {\mathbf {x}}}}$

扩展偏导得到的方向导数

$f(x_1, x_2, \ldots, x_n)$

$(v_1, \ldots, v_n)$

$\nabla_{{v}}{f}({x}) = \lim_{h \rightarrow 0}{\frac{f({x} + h{v}) - f({x})}{h}}.$

换种形式

$D_{{v}}f({a}) = \lim_{h \to 0} \frac{f({a}+h{v}) - f({a})}{h}.$

理解

导数:曲线上某一点沿着x轴方向变化的速率，即函数f(x)f(x)在该点的斜率
函数的导数就是函数的变化率

偏导数:
$\frac{\partial f}{\partial x}\text{是函数}f(x,y)$ 沿着x轴方向的变化率

$\frac{\partial f}{\partial y}\text{是函数}f(x,y)$ 沿着y轴方向的变化率

设函数z=f(X)=f(x,y) 在点P的某一邻域U§内有定义.自点引射线l.设x轴正向到射线l的转角为 φ（逆时针方向：
φ>0；顺时针方向：0），并设P’(x+△x,y+△y)为上的另一点且P’∈U§.我们考虑函数的增量f(x+△x,y+△y)－f(x,y)与P、P’两点间的距离 $\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}$
的比值.当P’沿着l趋于P时，如果这个比的极限存在，则称这极限为函数f(x,y)在点P沿方向l的方向导数，记作

$\frac{\partial f}{\partial {l}}=\lim_{\rho \to 0}\frac{f(x+\Delta x ,y+\Delta y)-f(x,y)}{\rho}$

换种形式

$\Delta x= \rho \cdot cos\alpha; \Delta y= \rho \cdot cos\beta;$

$\frac{\partial f}{\partial \vec{l}}=\lim_{\rho \to 0}\frac{f(x+\rho cos\alpha,y+\rho cos\beta)-f(x,y)}{\rho}$

因为

$\sin(\theta )=\cos \left({\frac {\pi }{2}}-\theta \right)={\frac {1}{\csc(\theta )}}$

$\alpha + \beta={\frac {\pi }{2}}$
还可以写成

$\frac{\partial f}{\partial \vec{l}}=\lim_{\rho \to 0}\frac{f(x+\rho cos\alpha,y+\rho sin\alpha)-f(x,y)}{\rho}$

方向导数:某一点沿着某一方向的变化率
在这里插入图片描述
根据上面的抛物线简化下
目的是找到抛物线中最低的点，也就是y轴中最小的那个坐标
先随意取一点，这条直线的斜率是三角形的高除以宽，也就是h/g,相当于tan(alpha）
看图知道如果切线平行于x轴，相当于tan0=0
当点向下移动时，斜率越来越小
$tan60∘ \circ }=\sqrt { 3 }$
$tan45∘ \circ }=1$
$tan30∘ \circ }=\frac { \sqrt { 3 } } { 3 }$
$tan0∘ \circ }=0$
在这里插入图片描述

方程 $z = f (x, y)$ ,表示曲面 $S$ 。
如果 $z_0=f(x_0,y_0)$ ,那么点 $P(x_0,y_0,z_0)$ 在 $S$ 上。
过P和 $P_0(x_0,y_0)$ 的平行于 $u$ 的竖直平面交S于曲线 $C$ 。
f沿着方向u的变化率是C在点P的切线的斜率。
当 $u = i$ 时 $p_0$ 的方向导数是 $\frac{\partial f}{\partial x}$ 在 $x_0,y_0)$ 的值
当 $u = j$ 时 $p_0$ 的方向导数是 $\frac{\partial f}{\partial y}$ 在 $x_0,y_0)$ 的值
方向导数可以求沿着任意方向，不仅仅是方向 $i$ 和方向 $j$ 的变化率
梯度
函数在某点的梯度是这样一个向量，它的方向是函数在这点方向导数取得最大值得方向，它的模为方向导数的最大值.

解释什么是向量的模？
向量的模就是向量的长度
假设平面有两个点 $\left( x _ { 1 } , y _ { 1 } \right) B \left( x _ { 2 } , y _ { 2 } \right)$ ，它们之间的距离是(还是勾股定理)
$\vec { \mathbf { A B } } | = \sqrt { \left( \boldsymbol { x } _ { 2 } - \boldsymbol { x } _ { \mathbf { 1 } } \right) ^ { 2 } + \left( \boldsymbol { y } _ { 2 } - \boldsymbol { y } _ { \mathbf { 1 } } \right) ^ { 2 } }$
这类距离也叫欧式距离，在机器学习中叫2-范数
nabla
换成表示方式就是
已知 $\vec { \boldsymbol { a } } | =( x , y )$ ，那么模就是
$\vec { \boldsymbol { a } } | = \sqrt { \boldsymbol { x } ^ { 2 } + \boldsymbol { y } ^ { 2 } }$
梯度的符号是$\operatorname { grad } f(x_0,y_0) $或者 $\nabla f(x_0,y_0)$ ,倒三角的符号是
梯度是这样的
$\operatorname { grad f } ( x , y ) = \sqrt { \left( \frac { \partial f } { \partial x } \right) ^ { 2 } + \left( \frac { \partial f } { \partial y } \right) ^ { 2 } }$

以二元z=f(x,y)这样的曲面用等值线表示
先使用Python画一个

import numpy as np
import matplotlib.pyplot as plt

def f(x, y):
   return (x**2+y**2) 

n = 64
x = np.linspace(-1, 1, n)
y = np.linspace(-1, 1, n)

#画原图
fig = plt.figure()
x1,y1 = np.meshgrid(x,y)
pic1=fig.add_subplot(111,projection='3d')
pic1.plot_surface(x1,y1,f(x1,y1),rstride=3,cstride=3,cmap=plt.cm.jet)
plt.show()

#画等值线
fig = plt.figure()
x2, y2 = np.meshgrid(x, y)
t = plt.contour(x2, y2, f(x2, y2), 10)
plt.clabel(t, inline=True, fontsize=10)
plt.show()

原图
在这里插入图片描述
在吴恩达的机器学习视频教程 Gradient Descent For Linear Regression中也有类似的这样的图，this is called a convex function
关于函数的这个“凸”，各种书籍资料都没有统一，这个凹凸正好是中国的象形字，但老外用的是字母。所以看书的时候要注意书中的定义和上下文，例如在陈宝林《最优化理论与算法》中用的抛物线的开口向上为凸函数和抛物线的开口向下为凹函数，我后面的说法采用张景中的上凸和下凸，直观无歧义。在他的著作《直来直去的微积分》中描述了林群的不使用极限概念定义导数，目的是让数学变得更容易学习。就像例如同样是对速度的定义，哪个更容易懂些。
初中的定义：速度等于路程与时间之比。
高中的定义：速度等于位移和发生位移所用时间的比值。
大学的定义：速度是描述质点运动快慢和方向的物理量等于位移对时间的微分，
同时也等于加速度的积分。
我这里使用了极限的概念来理解，如果使用林群的“一致性不等式”定义导数证明泰勒公式变得简单了。
等值线
在这里插入图片描述