AI算法工程师 | 04人工智能基础-高等数学知识强化（五）多元函数的微分学

艾伦！

已于 2023-10-29 22:06:56 修改

阅读量482

点赞数 4

分类专栏： AI算法工程师文章标签：人工智能 python 数学

于 2022-07-19 23:59:36 首次发布

本文链接：https://blog.csdn.net/ThisAmy/article/details/124964453

版权

AI算法工程师专栏收录该内容

21 篇文章 40 订阅

订阅专栏

文章目录

数学知识之多元函数的微分学

数学知识之多元函数的微分学

一、偏导数

概念

偏导数，可以看作是导数的推广

在多元函数中，把其它的自变量固定不动，看成是常量。只对其中的某一个变量（如 $x_i$ ）求导数，这就是偏导数（偏偏对一个变量求导数）
$\frac{\partial f}{\partial x_i}=\lim_{\bigtriangleup x_i\rightarrow 0}\frac{f(x_1,...,x_i+\bigtriangleup x_i,...,x_n)-f(x_1,...,x_i,...,x_n)}{\bigtriangleup x_i}$

几何意义

几何意义

计算

示例： $f(x,y)=x^2+xy-y^2$

① 对 $x$ 求偏导数：（把 $y$ 当成常数）
$\frac{\partial f}{\partial x}=2x+y$
② 对 $y$ 求偏导数：（把 $x$ 当成常数）
$\frac{\partial f}{\partial y}=x-2y$

有些时候，可简洁的写成： ${f}'x$ 、 ${f}'y$

Pyhton中的表示

以下是 cmd 命令端中输入python，所进入的 python 交互窗口

通过代码可验证：上方的式子计算准确性（对多元函数求偏导）

>>> from sympy import diff, symbols
>>> x , y = symbols('x y')  # 用 symbols 函数定义变量
>>>
>>> f = x**2 + x*y - y**2  
>>>
>>> # 用 diff 函数进行求导
>>> diff(f,x) # 对 x 求偏导数
2*x + y
>>> diff(f,y) # 对 y 求偏导数
x - 2*y

注意：

若在导入模块时 from sympy import diff, symbols，出现如下错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'sympy'

需要先在 cmd 命令窗口下载 sympy 库 pip install sympy

二、高阶偏导数

概念

既然有高阶导数，那同样存在高阶偏导数，但它的情况比高阶导数要复杂一些，因为它的求导变量有多个。

比如下式 ☞ 对 $x$ ， $y$ 求高阶偏导数：先对 $x$ 求偏导，再对 $y$ 求偏导
高阶偏导数跟一元函数的高阶导数是一样的，依次对每个变量反复求导 $\frac{\partial^2 f}{\partial x \partial y}$

计算

示例： $f(x,y)=x^2+xy-y^2$

情况一：先对 $x$ 求偏导 $\frac{\partial f}{\partial x}=2x+y$
- 然后再对 $x$ 求偏导就等于 2
  $\frac{\partial^2 f}{\partial^2 x}=2$
- 然后再对 $y$ 求偏导就等于 1
  $\frac{\partial^2 f}{\partial x \partial y}=1$
情况二：先对 $y$ 求偏导 $\frac{\partial f}{\partial y}=x-2y$
- 然后再对 $x$ 求偏导就等于 1
  $\frac{\partial^2 f}{ \partial y \partial x}=1$
- 然后再对 $y$ 求偏导就等于 -2
  $\frac{\partial^2 f}{ \partial^2y }=-2$

一个结论：高阶导数和求导次序无关
$\frac{\partial^2 f}{\partial x \partial y}=\frac{\partial^2 f}{ \partial y \partial x}$

Pyhton中的表示

以下是 cmd 命令端中输入python，所进入的 python 交互窗口

通过代码可验证：上方的式子计算准确性（求高阶偏导数）

>>> from sympy import diff, symbols
>>> f = x**2 + x*y - y**2
>>> x,y = symbols('x y') # 用 symbols 函数定义变量
>>> diff(f,x,2) # 对 x 的二阶偏导数
2
>>> diff(f,y,2) # 对 y 的二阶偏导数
-2
>>> diff(diff(f,x),y) # 先对 x 的一阶偏导数，再对 y 的一阶偏导数
1
>>> diff(diff(f,y),x) # 先对 y 的一阶偏导数，再对 x 的一阶偏导数
1
>>>
>>> # 可将 实际数值 代入变量 y 中求具体值
>>> diff(f,y) # 对 y 的一阶偏导数
x - 2*y
>>> diff(f,y).subs(y,2) # 令 y = 2 代入 x - 2*y 中
x - 4

三、梯度

机器学习中的梯度下降法、牛顿法，很多地方都会用到这个概念

关于梯度

梯度（gradient）可以看成是一元函数的导数，对于多元函数的推广

梯度的概念：对于多元函数，如果它的自变量有 N 个（ $x_1$ $x_2$ … $x_n$ ）。它的梯度是个向量，是由对 $x_1$ $x_2$ … $x_n$ 等的偏导数构成的向量，称之为梯度
梯度的表示：用倒三角符号来表示，表示作用于 $f (x)$ 得到这样一个向量。式子里往往会通过 $T$ 把它转置一下，看成是列向量
$\bigtriangledown f(x) = \left ( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},..., \frac{\partial f}{\partial x_n}\right )^T$

示例-求梯度

求 $f(x_1,x_2)=x_1^2+x_1x_2-x_2^2$ 的梯度
$\bigtriangledown f(x) = \left ( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}\right )^T=\left ( 2x_1+x_2，x_2-2x_2\right )^T$
求 $f(x_1,x_2, ... ,x_n)=w_1x_1+w_2x_2+...+w_nx_n$ 的梯度
$\bigtriangledown f(x) = \left ( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2},..., \frac{\partial f}{\partial x_n}\right )^T=\left ( w_1,w_2,...,w_n\right )^T$

四、雅可比矩阵

雅可比（Jacobian）矩阵：是由一阶偏导数构成的矩阵，发明它的目的主要是为了简化求导公式

优点：对多元的复合函数求导，如果用雅可比矩阵来计算，它会写起来非常简洁
应用：在人工神经网络（ANN）反向推导（BP）的过程中往往会看到雅可比矩阵的使用

定义

$y = f (x)$ ：假设有一个函数可以把 $n$ 维 $x$ 向量映射为 $k$ 维的向量 $y$ ；
$y_i=f(x_i)$ ：其中每个 $x_i$ 和每个 $y_i$ 都相关，即每个 $y_i$ 是单独从 $x_i$ 映射过来的函数；

函数 $f (x)$ 的雅可比矩阵就是每个 $y_i$ 分别对每个 $x_i$ 求偏导，然后构成的矩阵叫做雅可比矩阵。

雅克比矩阵

小贴士：如果 $x_i$ 是 $n$ 维向量， $y$ 是 $k$ 个值的结果（ $k$ 维向量），那么雅可比矩阵就是 $k \times n$ 的矩阵

图文理解
雅克比矩阵-理解

计算-求雅克比矩阵

如果 $x_1$ , $x_2$ , $x_3$ 根据函数 $f (x)$ 映射成 $y_1$ , $y_2$ 。其中， $y_1$ 是 $x_1$ , $x_2$ , $x_3$ 的函数， $y_2$ 也是 $x_1$ , $x_2$ , $x_3$ 的函数，则函数 $f (x)$ 的雅可比矩阵为：
计算-雅可比矩阵

在神经网络中的应用

五、Hessian 矩阵

定义

Hessian 矩阵：对多元函数中每个变量分别求二阶求导，它就相当于一元函数的二阶导数

对于一个 $n$ 元函数 $f (x)$ ，有自变量 $x_1,x_2, ... ,x_n$ ，
其 Hessian 矩阵（如下图）是一个 n*n 的矩阵，它的所有的元素是二阶偏导数构成的

小贴士：由于多元函数高阶偏导数和顺序无关，所以 hessian 矩阵是对称矩阵

计算

求 $f(x,y,z)=2x^2-xy+y^2-3z^2$ 的 Hessian 矩阵

先求出 $f (x, y, z)$ 的一阶偏导数：
- $f^{'} x = 4 x - y$
- $f^{'} y = - x + 2 y$
- $f^{'} z = - 6 z$
然后把 Hessian 矩阵求出来：
$\begin{bmatrix} 4 & -1 &0 \\ -1 & 2 & 0\\ 0 & 0 & -6 \end{bmatrix}$

作用

Hessian 矩阵和函数的凹凸性（极值）是有密切关系的——对机器学习的凹凸性有用（找 loss function 损失函数的极值）

如果 Hessian 矩阵正定，函数 f(x) 存在 极小值；
如果 Hessian 矩阵负定，函数 f(x) 存在 极大值。

六、极值判别法则

对于一元函数（点击可查看相关知识：高等数学知识强化（二）一元函数微分学，设 $f (x)$ 在 $x=x_0$ 处二阶可导，且 $f'(x_0) =0$ ， $f''(x_0) ≠0$ 。① 若 $f''(x_0) ＞0$ ，则 $f (x)$ 在 $x_0$ 处取得极小值；② 若 $f''(x_0) ＜0$ ，则 $f (x)$ 在 $x_0$ 处取得极大值。—— 判别极值的第二充分条件