导数、微分、偏导数、全微分、方向导数、梯度的定义与关系

矛始

已于 2022-07-18 17:42:50 修改

阅读量4.8w

点赞数 110

分类专栏：机器学习文章标签：高等数学机器学习梯度导数微分

于 2018-07-24 16:54:08 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/czmacd/article/details/81178650

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法，然后顺着扯出了一堆高数的相关概念理论：导数、偏导数、全微分、方向导数、梯度，重新回顾它们之间的一些关系，从网上和教材中摘录相关知识点。

通过函数的极限定义出导数(以一元函数为例)
函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
扩展到多元函数时，衍生出偏导数

导数

定义：设函数 $y = f (x)$ 在点 $x_0$ 的某个领域内有定义，如果 $\frac{Δy}{Δx}$ 在当 $Δ x$ ->0时极限存在，则称函数 $y = f (x)$ 在 $x_0$ 处可导，这个极限是函数 $y = f (x)$ 在 $x_0$ 处的导数
$f'(x_0)=\lim \limits_{Δx \to 0} \frac{Δy}{Δx}=\lim \limits_{Δx \to 0} \frac{f(x_0+Δx)-f(x_0)}{Δx}$

根据导数的定义，从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系，导数通常是指一点，导函数则是指一个区间上的

在直线运动场景中，若x表示时刻，y表示距离，函数f表示时间与距离的关系 $y = f (x)$ ,那么导数的含义就是在 $x_0$ 时刻的瞬时速度
在直角坐标系中， $y = f (x)$ 表示一个曲线，导数的含义表示的是曲线在点 $x_0$ 处的切线的斜率

微分

定义：设函数 $y = f (x)$ 在某个领域内有定义， $x_0$ 及 $x_0+Δx$ 在这区间内，如果增量
$Δy=f(x_0+x)-f(x_0)$
可表示为
$Δ y = A Δ x + o (Δ x)$
其中A是不依赖 $Δ x$ 的常数， $o (Δ x)$ 是指 $Δ x$ 趋于0时的高阶无穷小，那么称函数 $y = f (x)$ 在点 $x_0$ 是可微的，而 $A Δ x$ 叫做函数在点 $x_0$ 相应于自变量增量 $Δ x$ 的微分，记作 $\mathrm{d} y$ ，记作
$\mathrm{d}y=AΔx$

高阶无穷小的定义：如果 $\lim \limits \frac{\beta}{\alpha}=0$ ，就说 $\beta$ 是比 $\alpha$ 高阶的无穷小，记作 $\beta=o(\alpha)$

微分与导数的关系

上式 $Δ y = A Δ x + o (Δ x)$ 两边同时除以 $Δ x$ 得到
$\frac{Δy}{Δx}=A+\frac{o(Δx)}{Δx}$
当 $\to 0$ 时,上式左边就是导数的定义，而右边的 $\frac{o(Δx)}{Δx}$ 因为是高阶无穷小，所以会趋向于0，得到以下等式
$A=\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)$
因此，如果函数 $f (x)$ 在点 $x_0$ 可微，则 $f (x)$ 在点 $x_0$ 也一定可导，且 $A=f'(x_0)$ ，反之，如果 $f (x)$ 在点 $x_0$ 可导，存在下式
$\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)$
根据极限与无穷小的关系转化上式，当 $\to 0$ 时
$\frac{Δy}{Δx}=f'(x_0)+\alpha$
其中 $\lim \limits_{Δx \to 0}a=0$ ，即 $\lim \limits_{Δx \to 0}\frac{aΔx}{Δx}=0$ , $a Δ x = o (Δ x)$ ，上式转化为下式(又回到了微分的定义)
$Δy=f'(x_0)Δx+o(Δx)$
因此，函数 $f (x)$ 在点 $x_0$ 可微的充分必要条件是函数 $f (x)$ 在点 $x_0$ 可导
$\mathrm{d}y=f'(x_0)Δx$

偏导数

一元函数的变化率是导数，多元函数的自变量有多个，当某个自变量x变化而其它自变量固定时，这时候对变化的自变量x进行求导，就称为多元函数对于x的偏导数。
定义：设函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 的某一领域内有定义，当 $y$ 固定于 $y_0$ ，而 $x$ 在 $x_0$ 处有增量 $Δ x$ ，相应的函数有增量
$f(x_0+Δx,y_0)-f(x_0,y_0)$
如果
$\lim \limits_{Δx \to 0}\frac{f(x_0+Δx,y_0)-f(x_0,y_0)}{Δx}$
存在，则称该极限为 $z = f (x, y)$ 在点 $x_0,y_0)$ 处对 $x$ 的偏导数

偏导数的几何意义
这里写图片描述

偏导数 $f_{x} (x_{0},y_{0} )$ 就是曲面被平面 $y=y_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0}T_{x}$ 对 $x$ 轴的斜率
偏导数 $f_{y} (x_{0},y_{0} )$ 就是曲面被平面 $x=x_{0}$ 所截得的曲线在点 $M_{0}$ 处的切线 $M_{0}T_{y}$ 对 $y$ 轴的斜率

很多时候要考虑多元函数沿任意方向的变化率，那么就引出了方向导数

全微分

参考上文微分的定义，与一元函数的情形一样，希望用自变量增量 $Δ x, Δ y$ 来线性函数来代替函数的全增量 $Δ z$ ，从而减化计算
定义：设函数 $z = f (x, y)$ 在点 $(x, y)$ 的某领域内有定义如果函数在点 $(x, y)$ 的全增量
$Δ z = f (x + Δ x, y + Δ y) - f (x, y)$
可心表示为
$Δz=AΔx+BΔy+o(\rho)$
其中 $A, B$ 不依赖于 $Δ x, Δ y$ ， $\rho=\sqrt{(Δx)^2+(Δy)^2}$ ，则称函数 $z = f (x, y)$ 在点 $(x, y)$ 处可微分，而 $A Δ x + B Δ y$ 称为函数在点 $(x, y)$ 的全微分
$\mathrm{d}z=AΔx+BΔy$

可微分与偏导数关系

基于上述全微分定义成立，存在某一点 $p^{'} (x + Δ x, y + Δ y)$ 对于式子 $Δz=AΔx+BΔy+o(\rho)$ 也成立，当 $Δ y = 0$ 时
$f (Δ x + x, y) - f (x, y) = A Δ X + o (∣Δ x ∣)$
两边除以 $Δ x$ 并且令 $\to 0$ 取极限
$\lim \limits_{Δx \to 0}\frac{f(x+Δx,y)-f(x,y)}{Δx}=A$
这式子就是偏导数的定义形式啊，所以这说明了偏导数 $f_x(x,y)$ 存在且等于 $A$ ，同理也可证 $f_y(x,y)=B$ ，由此推导出以下公式
$\mathrm{d}z=f_x(x,y)Δx+f_y(x,y)Δy$

各偏导数的存在只是全微分存在的必要条件而非充分条件，即由全微分可证各偏导数存在，反之则不行

如果函数的各个偏数在点 $(x, y)$ 是连续的，则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在，谨记导数的本质是极限及代表函数的变化率，偏导数反映的是函数沿坐标轴方向的变化率，有所限制，所以引入方向导数表示沿任意一方向的变化率
定义：设 $l$ 是 $x O y$ 平面以 $P_0(x_0,y_0)$ 为始点的一条射线， $e_i=(cos\alpha,cos\beta)$ 是以射线同方向的单位向量
这里写图片描述

射线 $l$ 的参数方程为
$\begin{cases}x=x_0+tcos\alpha ，t\geq0\\ y=y_0+tcos\beta，t\geq0 \end{cases}$
如果函数增量 $f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)$ 与 $P$ 到 $P_0$ 的距离 $PP_0|=t$ 的比值，当点 $P$ 沿着 $l$ 趋于 $P_0(即t \to 0^+)$ 时极限存在，则称此极限为函数在点 $P_0$ 沿方向 $l$ 的方向导数
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=\lim \limits_{t \to 0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}$

方向导数与全微分的关系

由全微分的定义得到
$f(x_0+Δx,y_0+Δy)-f(x_0,y_0)=f_x(x_0,y_0)Δx+f_y(x_0,y_0)Δy+o(\sqrt{(Δx)^2+(Δy)^2})$
设点 $x_0+Δx,y_0+Δy)$ 在以 $x_0,y_0)$ 为起点的射线 $l(cos\alpha,cos\beta是l的方向余弦)$ 上，则有 $Δx=tcos\alpha$ , $Δy=tcos\beta$ , $\sqrt{(Δx)^2+(Δy)^2}=t$ ，所以
$\lim \limits_{t \to 0^+}\frac{f(x_0+Δx,y_0+Δy)-f(x_0,y_0)}{t}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta$
上式左侧就是方向导数定义形式，极限存在即方向导数存在，且其值等于右式

由此得到定理，如果函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 可微分，那么函数在该点沿任一方向 $l$ 的方向导数存在
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta$

梯度

在平面上确定某一点可能存在无数个方向导数，我们怎样找到其中一个方向导数来描述函数最大变化率？
定义：在二元函数的情形，设函数 $f (x, y)$ 在平面区域D内具有一阶连续偏导数，对于每一点 $P_0(x_0,y_0)\in D$ ，都可以给出一个向量
$f_x(x_0,y_0)i+f_y(x_0,y_0)j \quad 或用坐标表示 \quad (f_x(x_0,y_0),f_y(x_0,y_0))$
其中 $i, j$ 为 $x, y$ 轴的方向向量，上述微量称为函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 的梯度记作
$gradf(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j$
由定义看到，梯度的方向是确定的，如果点 $P$ 的坐标确定，那么梯度也大小也确定

如果函数 $f (x, y)$ 在点 $P_0(x_0,y_0)$ 可微分， $e_l=(cos\alpha,cos\beta)$ 是方向 $l$ 的方向向量(方向未确定)
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta=grad\ f(x_0,y_0).e_l=|grad\ f(x_0,y_0)|cos\theta$
其中 $\theta$ 为向量 ${grad\ f(x_0,y_0)}$ 与向量 $e_l$ 的夹角，当 $\theta=0$ 时，即方向 $e_l$ 与梯度 ${grad\ f(x_0,y_0)}$ 的方向时，函数 $f (x, y)$ 增加最快，函数在这个方向的方向导数达到最大值，这个值就是梯度 ${grad\ f(x_0,y_0)}$ 的模，即
$\frac{\partial f}{\partial l}|_{(x_0,y_0)}=|grad \ f(x_0,y_0)|$