视觉惯性单目SLAM （五）矩阵微积分

最新推荐文章于 2024-08-18 00:01:29 发布

置顶 Arrow

最新推荐文章于 2024-08-18 00:01:29 发布

阅读量6.7k

点赞数 3

分类专栏： SLAM

SLAM 专栏收录该内容

24 篇文章 23 订阅

订阅专栏

1. 基本概念

矩阵微积分：Matrix Calculus
$\color {red}{微积分的核心思想：局部线性化}$
矩阵函数（包括向量函数）对标量的导数：等于它的各个元素对标量的导数，且是同阶的矩阵
张量积（ Kronecker product of matrices ⊗ ; a.k.a, tensor product.）

$A \in R m \times n, B \in R p \times q$ $A \in R^{m \times n}, \quad B \in R^{p \times q}$
$B \otimes A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ B 11 A B 21 A ⋮ B p 1 A B 12 A B 22 A ⋮ B p 2 A \dots \dots ⋱ \dots B 1 q A B 2 q A ⋮ B p q A ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ \in R p m \times q n$ $B \otimes A = \begin{bmatrix} B_{11}A & B_{12}A & \cdots & B_{1q}A \\ B_{21}A & B_{22}A & \cdots & B_{2q}A \\ \vdots & \vdots & \ddots & \vdots \\ B_{p1}A & B_{p2}A & \cdots & B_{pq}A \\ \end{bmatrix} \in R^{pm \times qn}$
阿达玛积(Hadamard product： $\circ$ ）
$A \in R m \times n, B \in R m \times n$ $A \in R^{m \times n}, \quad B \in R^{m \times n}$
$A \circ B = [a i j * b i j]$ $A \circ B = [a_{ij} * b_{ij}]$

1.1 常用求导操作

$\partial ( a T x ) \partial x = a$ $\frac {\partial \;( a^T \mathbf x)} {\partial \mathbf x} =a$
$\partial ( a T x b ) \partial x = a b T$ $\frac {\partial \;(a^T \mathbf x b)}{\partial \mathbf x} = ab^T$
$\partial ( a T x T b ) \partial x = b a T$ $\frac {\partial \;(a^T \mathbf x^T b)}{\partial \mathbf x} = ba^T$
Gradient and Hessian
- $f (x) = x T A x + b T x$ $f(\mathbf x) = \mathbf x^T A \mathbf x + b^T \mathbf x$
- 梯度：
  $\nabla x f = \partial f \partial x = (A + A T) x + b$ $\nabla_{\mathbf x}f = \frac {\partial f}{\partial \mathbf x} = (A+A^T) \mathbf x + b$
- 海森矩阵：
  $\partial 2 f \partial x \partial x T = A + A T$ $\frac {\partial ^2f}{\partial \mathbf x \partial \mathbf x^T} = A+A^T$
基本规则
- $\partial A = 0 \quad (A是常量)$
- $\partial (X + Y) = \partial X +\partial Y$
- $\partial (\alpha X) = \alpha \; \partial X$
乘法规则
- $\partial (X \circ Y) = (\partial X) \circ Y + X \circ (\partial Y)$
- $\partial (XY) = (\partial X) Y + X (\partial Y)$
- $\partial (X \otimes Y) = (\partial X) \otimes Y + X \otimes (\partial Y)$
行列式的导数（Derivatives of Determinants）
- $\partial (d e t (X)) = d e t (X) t r (X - 1 (\partial X))$ $\partial (det(X)) = det(X) \; tr(X^{-1} (\partial X))$
- $\partial (l n (d e t (X))) = t r (X - 1 (\partial X)$ $\partial (ln(det(X))) = tr(X^{-1} \; (\partial X)$
链式法则（The Chain Rule）
- 设： $U = f (X)$ $U = f(X)$
  则： $\partial g ( U ) \partial X = \partial g ( f ( X ) ) \partial X$ $\frac {\partial g(U)}{\partial X} = \frac {\partial g(f(X))}{\partial X}$
- 链式法则为：
  $\partial g ( U ) \partial x i j = \sum k = 1 m \sum l = 1 n \partial g ( U ) \partial u k l \partial u k l \partial x i j$ $\frac {\partial g(U)}{\partial x_{ij}} = \sum_{k=1}^m\sum_{l=1}^n \frac {\partial g(U)}{\partial u_{kl}} \frac {\partial u_{kl}}{\partial x_{ij}}$
  $\partial g ( U ) \partial X i j = t r [(\partial g ( U ) \partial U) T \partial U \partial X i j]$ $\frac {\partial g(U)}{\partial X_{ij}} = tr[ (\frac {\partial g(U)}{\partial U})^T \frac {\partial U}{\partial X_{ij}}]$
迹的导数（Derivatives of Traces）
- 函数 $f$ 是函数 $F$ 的标量导数(f() is the scalar derivative of F())
- $\partial t r ( F ( X ) \partial X = f (X) T$ $\frac {\partial tr(F(X)}{\partial X} = f(X)^T$
- $\partial \partial X t r (X A) = A T$ $\frac {\partial}{\partial X} tr(XA) = A^T$
- $\partial \partial X t r (A X B) = A T B T$ $\frac {\partial}{\partial X} tr(AXB) = A^TB^T$
- $\partial \partial X t r (A X T B) = B A$ $\frac {\partial}{\partial X} tr(AX^TB) = BA$
- $\partial \partial X t r (X T A) = A$ $\frac {\partial}{\partial X} tr(X^TA) = A$
- $\partial \partial X t r (X 2) = 2 X T$ $\frac {\partial}{\partial X} tr(X^2) = 2X^T$
弗罗伯尼范数求导（Derivatives of Frobenius Norm）
- 弗罗伯尼范数： $| | A | | F = \sum i j | A i j | 2 - - - - - - - - \sqrt = t r (A A H) - - - - - - - \sqrt$ $||A||_F = \sqrt{\sum_{ij}|A_{ij}|^2} = \sqrt{tr(AA^H)}$
- 导数： $\partial \partial X | | X | | 2 F = 2 X = \partial \partial X t r (X X H)$ $\frac {\partial}{\partial X}||X||_F^2 = 2X = \frac {\partial}{\partial X}tr(XX^H)$

1.2 导数公式

这里写图片描述

2. 矩阵一阶求导规则汇总

偏导数/偏微分：Partial Derivatives
矩阵导数：Matrix Derivatives
自变量（independent variable）：可以为标量（Scalar)、向量（Vector)、矩阵（Matrix）
因变量（dependent variable）：可以为标量（Scalar)、向量（Vector)、矩阵（Matrix）
行：为因变量类型（ $y, \mathbf y, Y$ 函数类型）
列：为自变量类型（ $x, \mathbf x, X$ ）
下表中， $i\;$ 代表行， $j\;$ 代表列
向量：是一个只有一列的矩阵
因变量向量/标量的维数：决定导数的行数
自变量向量/标量的维数：决定导数的列数
下表中使用 $\frac {d}{d}与 \frac{\partial}{\partial}意思相同$

类型	Scalar( $y$ )	Vector( $\mathbf y$ ，列向量 $m \times 1$ )	Matrix( $Y$ ) $m \times n$
Scalar( $x$ )	$\frac {dy}{dx}$	$\frac {d \mathbf y}{dx} = \begin{bmatrix} \frac {\partial y_i}{\partial x}\end{bmatrix}_{m \times 1}$ ( $\color {red}{向量y的切向量}$ )	$\frac {dY}{dx} = \begin{bmatrix} \frac {\partial y_{ij}}{\partial x}\end{bmatrix}_{m \times n}$ ( $\color {red}{切线矩阵}$ )
Vector( $\mathbf x$ ) (列向量 $n \times 1$ )	$\frac {dy}{d \mathbf x} = \begin{bmatrix} \frac {\partial y}{\partial x_j}\end{bmatrix}_{1 \times n}$ ( $\color {red}{梯度行向量}$ )	$\frac {d \mathbf y}{d \mathbf x} = \begin{bmatrix} \frac {\partial y_i}{\partial x_j}\end{bmatrix}_{m \times n}$ ( $\color {red}{雅可比矩阵)}$
Matrix( $X$ ) ( $m \times n$ )	$\frac {dy}{dX} = \begin{bmatrix} \frac {\partial y}{\partial x_{ji}}\end{bmatrix}_{\color {red}{n \times m}}$ ( $\color {red}{梯度矩阵}$ )

2.1 向量对标量求导(Vector-by-scalar)

$\color {red}{向量\mathbf y：向量中每个元素y_i为自变量x的函数}$ ，简称：向量函数（Vector Function）
$y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $\mathbf y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix}$
$\color {red}{标量x}$
$\color {red}{向量对标量求导：\frac {d \mathbf y}{dx}}$

$d y d x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x ⋮ \partial y m \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {d \mathbf y}{dx} = \begin{bmatrix} \frac {\partial y_1}{\partial x} \\ \frac {\partial y_2}{\partial x} \\ \vdots \\ \frac {\partial y_m}{\partial x} \end{bmatrix}$
$\color {red}{几何意义}$ ： $\frac {d \mathbf y}{dx}$ 表示向量 $\mathbf y$ 的切向量（tangent vector）
$\color {red}{映射}$ ： $\mathbf y：R^1 \to R^m$

2.2 标量对向量求导(梯度：Scalar-by-vector)

$\color {red}{映射：R^n \to R^1}$
$\color {red}{求导结果：梯度}$
$\color {red}{标量 y}$
$\color {red}{向量 \mathbf x}$

$x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $\mathbf x = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}$
$\color {red}{标量对向量求导：\frac {dy}{d \mathbf x}，其结果为梯度（Gradeint）}$
$\nabla y (x) = \nabla y = d y d x = [\partial y \partial x 1, \partial y \partial x 2, \dots, \partial y \partial x n]$ $\nabla y(x) = \nabla y = \frac {dy}{d \mathbf x} = \begin{bmatrix} \frac {\partial y}{\partial x_1}, \frac {\partial y}{\partial x_2}, \cdots, \frac {\partial y}{\partial x_n} \end{bmatrix}$
$\color {red}{几何意义}$ ：它表示一个标量场在空间 $R^n$ 中的梯度（ $Gradient$ ），在物理学中，电场是电势的矢量梯度。

2.2.1 梯度（Gradient）

$\color {red}{梯度定义}$ ：对于一个可微的、多变量的实值函数 $f(x_1, x_2, \cdots, x_n)$ ，其梯度是一个向量，且向量的元素为 $\frac {\partial f}{\partial x_i}(x)，上体定义如下：$

$g r a d f = \nabla f (x) = \nabla f = [\partial f \partial x 1, \partial f \partial x 2, \dots, \partial f \partial x n]$ $grad \; f =\nabla f(x) =\nabla f = \begin{bmatrix} \frac {\partial f}{\partial x_1}, \frac {\partial f}{\partial x_2}, \cdots, \frac {\partial f}{\partial x_n} \end{bmatrix}$
$\color {red}{梯度是行向量还是列向量？}$ ：依据具体使用环境而定
$\color {red}{图片的梯度表示:}$
$\color {red}{Jacobian矩阵与梯度的关系:}$ Jacobian矩阵是1个具有n个变量的向量函数的梯度的推广。即一个多变量的实值函数求偏导生成一个梯度向量，而m个多变量的实值函数求偏导生成一个Jacobian矩阵（由多个梯度行向量组成）。
$\color {red}{f:R^n \to R^1: 求偏导生成（梯度向量 Gradient \; Vector）}$
$\color {red}{f:R^n \to R^m: 求偏导生成（雅可比矩阵 Jacobian \; Matrix）}$
$\color {red}{梯度向量的长度}$ ：表示在梯度方向变化的快慢，即陡峭程度(长度越大，变化越大)
$\color {red}{梯度向量的方向}$ ：表示在指定点最陡的方向（即切线斜率最大的方向）
$\color {red}{如果标量函数的梯度某点x为0，则称f在点x有一个临界点/驻点（可能为极大值点、或极小值点、或拐点）}$

2.2.2 方向导数（Directionial Derivative）

梯度向量方向表示最陡的方向，方向导数描述指定方向的陡峭程度(如爬山，沿着最陡的方向可能比较困难，选一个合适的陡峭的路上山比较可行)
$\color {red}{方向导数用梯度表示（directional \; derivative）}$ ：空间矢量 $\mathbf x$ 的标量函数 $f（\mathbf x）$ 在单位向量 $\mathbf v$ 方向上的方向导数用梯度定义如下：

$\nabla v f (x) = \nabla f (x) \cdot v$ $\nabla_{\mathbf v} f(\mathbf x) = \nabla f(\mathbf x) \cdot \mathbf v$
$\color {red}{\nabla_{\mathbf v} f(\mathbf x)：方向导数； \quad \nabla f(\mathbf x):为函数f(x)的梯度；\quad (\cdot):为点乘(dot \; product) }$
或简记为： $\nabla v f = d f d x v$ $\nabla_{\mathbf v} f= \frac {df}{d \mathbf x} \mathbf v$
$\color {red}{方向导数(是一个标量<一个数>)的定义}$ ：
- 标量函数 $f(\mathbf x)$
  $f (x) = f (x 1, x 2, \dots, x n)$ $f(\mathbf x) = f(x_1, x_2, \cdots, x_n)$
- 沿着向量 $\mathbf v$ 方向
  $v = [v 1, v 2, \dots, v n]$ $\mathbf v = \begin{bmatrix} v_1, v_2, \cdots, v_n \end{bmatrix}$
- 的 $\color {red}{方向导数}$ 定义为：
  
  $\nabla v f (x) = lim h \to 0 f ( x + h v ) - f ( x ) h, h 为标量$ $\nabla_{\mathbf v} f(\mathbf x) = \lim_{h \to 0} \frac {f(\mathbf x + h \mathbf v) - f(\mathbf x)}{h}, \quad h为标量$
- 如果函数 $f$ 点 $\mathbf x$ 处可微，则沿着任意向量 $\mathbf v$ 的方向导数都存在，且为：
  
  $\nabla v f (x) = \nabla f (x) \cdot v$ $\nabla_{\mathbf v} f(\mathbf x) = \nabla f(\mathbf x) \cdot \mathbf v$
$\color {red}{方向导数的意义}$ ：
- 一个多元的可微函数在点 $\mathbf x$ 处沿着向量 $\mathbf v$ 方向的方向导数的物理含义：当以速度 $\mathbf v$ 移动通过点 $\mathbf x$ 时， $f$ 相对于时间 $(t)$ 的瞬时变化率
$\color {red}{方向导数的性质}$ ：
- 求和规则（sum rule）：
  $\nabla v (f + g) = \nabla v f + \nabla v g$ $\nabla_{\mathbf v}(f+g) = \nabla_{\mathbf v}f + \nabla_{\mathbf v}g$
- 常数因子规则（constant factor rule: $c$ 为任意常数）：
  $\nabla v (c f) = c \nabla v f$ $\nabla_{\mathbf v}(cf) = c\nabla_{\mathbf v}f$
- 乘法规则（product rule）：
  $\nabla v (f g) = g \nabla v f + f \nabla v g$ $\nabla_{\mathbf v}(fg) = g\nabla_{\mathbf v}f + f\nabla_{\mathbf v}g$
- 链式法则（chain rule）：如果 $g$ 在点 $p$ 处可微，且 $h$ 在 $g(p)$ 处可微，则有:
  $\nabla v (h \circ g) (p) = h' (g (p)) \nabla v g (p)$ $\nabla_{\mathbf v}(h \circ g)(p) = h'(g(p)) \; \nabla_{\mathbf v}g(p)$

2.3 向量对向量求导（Vector-by-vector）

$\color {red}{向量函数\mathbf y}$ （Vector Function）：向量的元素为输入向量 $\mathbf x的$ 函数(因变量)

$y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 \dots y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$ $\mathbf y = \begin{bmatrix} y_1 \\ y_2 \\ \cdots\\ y_m \end{bmatrix}$
$\color {red}{输入向量\mathbf x}$ （Input Vector）：向量的元素的自变量

$x = ⎡ ⎣ ⎢ ⎢ ⎢ x 1 x 2 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥$ $\mathbf x = \begin{bmatrix} x_1 \\ x_2 \\ \cdots\\ x_n \end{bmatrix}$
$\color {red}{向量对向量求导：\frac {d \mathbf y}{d \mathbf x}，其结果为雅可比矩阵（Jacobian Matrix）}$
$d y d x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y m \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y m \partial x 2 \dots \dots ⋱ \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\frac {d \mathbf y}{d \mathbf x} = \begin{bmatrix} \frac {\partial y_1}{\partial x_1} & \frac {\partial y_1}{\partial x_2} & \cdots & \frac {\partial y_1}{\partial x_n } \\ \frac {\partial y_2}{\partial x_1} & \frac {\partial y_2}{\partial x_2} & \cdots & \frac {\partial y_2}{\partial x_n } \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial y_m}{\partial x_1} & \frac {\partial y_m}{\partial x_2} & \cdots & \frac {\partial y_m}{\partial x_n } \end{bmatrix}$
向量函数对向量的导数表示：推进（或差），或雅可比矩阵（pushforward (or differential), or the Jacobian matrix.）。
$\color {red}{向量对标量求导、标量对向量求导：是向量对向量求导的特例}$ 。

2.3.1 雅可比矩阵（Jacobian Matrix）

$\color {red}{定义}$ ：向量值函数对所有自变量的一阶偏导数生成的矩阵为Jacobian Matrix
$\color {red}{f: R^n \to R^m, \; x \in R^n, \; f(x) \in R^m， \quad 函数f的Jacobian是J_{m \times n}}$ ：
$x = ⎡ ⎣ ⎢ ⎢ x 1 ⋮ x n ⎤ ⎦ ⎥ ⎥, f = ⎡ ⎣ ⎢ ⎢ f 1 ⋮ f m ⎤ ⎦ ⎥ ⎥$ $x = \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix}, f = \begin{bmatrix} f_1 \\ \vdots \\ f_m \end{bmatrix}$
$J f (x) = J = [\partial f \partial x 1 \dots \partial f \partial x n] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 ⋮ \partial f m \partial x 1 \dots ⋱ \dots \partial f 1 \partial x n ⋮ \partial f m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $J_f(x) = J = \begin{bmatrix} \frac {\partial f}{\partial x_1} & \cdots & \frac {\partial f}{\partial x_n} \end{bmatrix}=\begin{bmatrix} \frac {\partial f_1}{\partial x_1} & \cdots & \frac {\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac {\partial f_m}{\partial x_1} & \cdots & \frac {\partial f_m}{\partial x_n} \end{bmatrix}$
$\color {red}{所有表示方法}$ ：
$J f = J f (x) = J = D f = \partial ( f 1 , \dots , f m ) \partial ( x 1 , \dots , x n )$ $J_f = J_f(x) = J = Df = \frac {\partial (f_1, \cdots, f_m)}{\partial (x_1, \cdots, x_n)}$
$\color {red}{矩阵元素法表示为}$ ：
$J i j = \partial f i \partial x j$ $J_{ij} = \frac {\partial f_i}{\partial x_j}$
$\color {red}{雅可比矩阵的重要性}$ ：如果向量函数 $f$ 在点 $x$ 可微，Jacobian Matrix定义了从 $R^n \to R^m$ 的线性变换，且 $\color {red}{是向量函数在点x附近最好的线性近似}$ 。
$\color {red}{如果m=1,向量函数只有一个函数，此雅可比矩阵变为一个行向量（row \; vector），即梯度\nabla_f(x)}$
$\color {red}{雅可比矩阵与梯度和导数的关系}$ ：
- 对于多变量标量值函数变为：梯度
- 对于单变量标量值函数变为：导数
- 对于多变量向量值函数变为：Jacobian Matrix
$\color {red}{用于局部变换}$ ：
- 可用于描述强加给图像局部的拉伸、旋转、平移变换
- 如 $(x',y') = f(x,y)用于变换一个图像，则J_f(x,y)则描述了（x，y）邻域像素是如何变换的$
$\color {red}{最好的局部线性近似}$ ：
- $若p是R^n中一点，则f在点p可微，其偏导数为J_f(p)，则线性变换J_f(p)是点p附近最好的线性近似，即$
  $f (x) = f (p) + J f (p) (x - p) + o (| | x - p | |)$ $f(x) = f(p) + J_f(p) (x-p) + o(||x-p||)$
- 当 $x \to p,||x-p||是x与p间的距离$
$\color {red}{海森矩阵的来源}$ ：
- 多变量标量值函数的梯度的Jacobian Matriax就是海森矩阵，它是此函数的二阶导数
$\color {red}{非线性变换实例图}$

2.4 矩阵对标量求导（Matrix-by-scalar）

$\color {red}{用途}$ ：可用于解决最小化问题
$\color {red}{矩阵函数Y}$ ：Matrix function (矩阵的元素为自变量 $x$ 的函数 )
$Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 11 y 21 ⋮ y m 1 y 12 y 22 ⋮ y m 2 \dots \dots ⋱ \dots y 1 n y 2 n ⋮ y m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $Y = \begin{bmatrix} y_{11} & y_{12} & \cdots & y_{1n} \\ y_{21} & y_{22} & \cdots & y_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ y_{m1} & y_{m2} & \cdots & y_{mn} \\ \end{bmatrix}$
$\color {red}{标量x}$
$\color {red}{矩阵对标量的导数（切线矩阵 tangent \; matrix）}$

d Y d x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 21 \partial x ⋮ \partial y m 1 \partial x \partial y 12 \partial x \partial y 22 \partial x ⋮ \partial y m 2 \partial x \dots \dots ⋱ \dots \partial y 1 n \partial x \partial y 2 n \partial x ⋮ \partial y m n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac {dY}{dx} = \begin{bmatrix} \frac {\partial y_{11}}{\partial x} & \frac {\partial y_{12}}{\partial x} & \cdots & \frac {\partial y_{1n}}{\partial x} \\ \frac {\partial y_{21}}{\partial x} & \frac {\partial y_{22}}{\partial x} & \cdots & \frac {\partial y_{2n}}{\partial x} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial y_{m1}}{\partial x} & \frac {\partial y_{m2}}{\partial x} & \cdots & \frac {\partial y_{mn}}{\partial x} \\ \end{bmatrix}$

2.5 标量对矩阵求导（Scalar-by-matrix）

$\color {red}{用途}$ ：可用于解决最小化问题，如 $Kalman \; filter$ 。
$\color {red}{标量函数y}$
$\color {red}{矩阵自变量X}$
$X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 n x 2 n ⋮ x m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥$ $X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \\ \end{bmatrix}$
$\color {red}{标量y对矩阵X求导，其结果为梯度矩阵（gradient \; matrix）}$
$\nabla X y (X) = d y d X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 12 ⋮ \partial y \partial x 1 n \partial y \partial x 21 \partial y \partial x 22 ⋮ \partial y \partial x 2 n \dots \dots ⋱ \dots \partial y \partial x m 1 \partial y \partial x m 2 ⋮ \partial y \partial x m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $\nabla_X y(X) = \frac {dy}{dX} = \begin{bmatrix} \frac {\partial y}{\partial x_{11}} & \frac {\partial y}{\partial x_{21}} & \cdots & \frac {\partial y}{\partial x_{m1}} \\ \frac {\partial y}{\partial x_{12}} & \frac {\partial y}{\partial x_{22}} & \cdots & \frac {\partial y}{\partial x_{m2}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial y}{\partial x_{1n}} & \frac {\partial y}{\partial x_{2n}} & \cdots & \frac {\partial y}{\partial x_{mn}} \\ \end{bmatrix}$
标量函数f(X)的方向导数：
- f(X)：其自变量为矩阵X
- f(X)在矩阵Y方向的方向导数为：
  $\nabla Y f = t r (d f d X Y), t r 为矩阵的迹$ $\nabla _Yf = tr(\frac {d f}{d X}Y), \quad tr为矩阵的迹$

3. 标量对向量的二阶求导(海森矩阵)

定义：
- Hessian Matrix是一个多变量标量值函数的二阶偏导组成的方阵
- $\color {red}{几何意义：它描述了多变量函数的局部曲率}$
- $f: R^n \to R, x \in R^n, f(x) \in R，如果函数f的二阶偏导数存在且在函数域内连续，则H_{n \times n}为：$
  $H = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f \partial x 1 \partial x 1 \partial 2 f \partial x 2 \partial x 1 ⋮ \partial 2 f \partial x n \partial x 1 \partial 2 f \partial x 1 \partial x 2 \partial 2 f \partial x 2 \partial x 2 ⋮ \partial 2 f \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f \partial x 1 \partial x n \partial 2 f \partial x 2 \partial x n ⋮ \partial 2 f \partial x n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥$ $H = \begin{bmatrix} \frac {\partial^2 f}{\partial x_1 \partial x_1 } & \frac {\partial^2 f}{\partial x_1 \partial x_2 } & \cdots & \frac {\partial^2 f}{\partial x_1 \partial x_n } \\ \frac {\partial^2 f}{\partial x_2 \partial x_1 } & \frac {\partial^2 f}{\partial x_2 \partial x_2 } & \cdots & \frac {\partial^2 f}{\partial x_2 \partial x_n } \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial^2 f}{\partial x_n \partial x_1 } & \frac {\partial^2 f}{\partial x_n \partial x_2 } & \cdots & \frac {\partial^2 f}{\partial x_n \partial x_n } \\ \end{bmatrix}$
- 元素法表示为：
  $H i j = \partial 2 f \partial x i \partial x j$ $H_{ij} = \frac {\partial^2f}{\partial x_i \partial x_j}$
海森矩阵的来源
- 多变量标量值函数的梯度的Jacobian Matriax就是海森矩阵，它是此函数的二阶导数
  $H (f (x)) = J (\nabla f (x)) T$ $H(f(x)) = J(\nabla f(x))^T$
Hessian矩阵的特征值：
- 就是形容其在该点附近特征向量方向的凹凸性，特征值越大，凸性越强。
$\color {red}{Hessian矩阵是n×n方阵，且是对称矩阵}$ :
- 由于二阶导数具有对称性，即：
  $\partial \partial x i (\partial f \partial x j) = \partial \partial x j (\partial f \partial x i)$ $\frac {\partial }{\partial x_i} \left(\frac {\partial f }{\partial x_j} \right) = \frac {\partial }{\partial x_j} \left(\frac {\partial f }{\partial x_i} \right)$
- 所以有：
  $H = H T$ $H = H^T$
$\color {red}{Critical \; points/Stationary \; point(临界点/驻点)}$
- $\color {red}{如果标量函数的梯度某点x为0，则称f在点x有一个临界点/驻点（可能为极大值点、或极小值点、或拐点）}$
- 在点 $x$ 处的海森矩阵的行列式被称为：判别式（discriminant）
- 如果此判别式为 $0$ ，则点 $x$ 被称为：函数 $f$ 的退化临界点（degenerate critical point）或非莫尔斯临界点（non-Morse critical point）
- 如果此判别式不为 $0$ ，则点 $x$ 被称为：函数 $f$ 非退化临界点的(non-degenerate)或莫尔斯临界点 （Morse critical point ）
$\color {red}{用途}$ ：
- 海森矩阵在莫尔斯理论(Morse theory)和突变理论（catastrophe theory）中具有重要作用，因为它的内核和特征值可以对临界点进行分类
$\color {red}{海森矩阵的性质}$ ：
- 凸函数的Hessian Matrix是半正定的（positive semi-definite(M为对称，对于任意列向量z，有 $z^TMz \ge 0$ )）
- 如果Hessian矩阵在点 $x$ 是正定的（positive definite (M为对称，对于任意列向量z，有 $z^TMz >0$ )），则 $x$ 是 $f$ 的孤立局部极小值点
- 如果Hessian矩阵在点 $x$ 是负定的（negative definite (M为对称，对于任意列向量z，有 $z^TMz < 0$ )），则 $x$ 是 $f$ 的孤立局部极大值点
- 如果Hessian矩阵有正的和负的特征值，则x是f的一个鞍点（saddle point）