雅克比矩阵理解

泠山

已于 2022-09-16 18:16:52 修改

阅读量4.1k

点赞数 6

分类专栏： # 非线性优化文章标签：计算机视觉线性代数

于 2021-04-12 20:32:48 首次发布

本文链接：https://blog.csdn.net/qq_28087491/article/details/115620590

版权

非线性优化专栏收录该内容

13 篇文章

订阅专栏

雅克比矩阵理解

1.概述
2. 雅克比行列式

Reference：

1.概述

设 $f:\mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是一个函数，它的输入是向量 $x\in \mathbb{R}^{n}$ ，输出是向量 $y=f(x)\in \mathbb{R}^{m}$ ：
$\left\{\begin{array}{l}y_{1}=f_{1}\left(x_{1}, \ldots, x_{n}\right) \\ y_{2}=f_{2}\left(x_{1}, \ldots, x_{n}\right) \\ \cdots \\ y_{m}=f_{m}\left(x_{1}, \ldots, x_{n}\right)\end{array}\right.$

那么雅可比矩阵是一个 $m \times n$ 矩阵，通常被定义为：
$\mathbf{J}=\left[\begin{array}{lll}\frac{\partial \mathbf{f}}{\partial x_{1}} & \cdots & \frac{\partial \mathbf{f}}{\partial x_{n}}\end{array}\right]=\left[\begin{array}{ccc}\frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}}\end{array}\right]$

由于矩阵描述了向量空间中的运动----变换，而雅克比矩阵看作是将点 $x_1,...,x_n)$ 转换到点 $y_1,...,y_n)$ ，或者说是从一个 $n$ 维的欧氏空间转换到 $m$ 维的欧氏空间。

1.1 示例

已知函数 $F:\mathbb{R}^{3} \rightarrow \mathbb{R}^{m}$ 分量为：
        $y_1=x_1$
        $y_2=5x_3$
        $y_3=4x_2^2-2x_3$
        $y_4=x_3\sin x_1$

则函数 $F$ 的雅克比矩阵为：
$\mathbf{J}_{\mathbf{F}}\left(x_{1}, x_{2}, x_{3}\right)=\left[\begin{array}{lll} \frac{\partial y_{1}}{\partial x_{1}} & \frac{\partial y_{1}}{\partial x_{2}} & \frac{\partial y_{1}}{\partial x_{3}} \\ \frac{\partial y_{2}}{\partial x_{1}} & \frac{\partial y_{2}}{\partial x_{2}} & \frac{\partial y_{2}}{\partial x_{3}} \\ \frac{\partial y_{3}}{\partial x_{1}} & \frac{\partial y_{3}}{\partial x_{2}} & \frac{\partial y_{3}}{\partial x_{3}} \\ \frac{\partial y_{4}}{\partial x_{1}} & \frac{\partial y_{4}}{\partial x_{2}} & \frac{\partial y_{4}}{\partial x_{3}} \end{array}\right]=\left[\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 0 & 5 \\ 0 & 8 x_{2} & -2 \\ x_{3} \cos x_{1} & 0 & \sin x_{1} \end{array}\right]$

1.2 意义

如果 $p$ 是 $\mathbb{R}^{n}$ 中的一点， $F$ 在 $p$ 处可微， $J_F(p)$ 是这点的导数。在此情况下， $J_F(p)$ 这个线性映射即 $F$ 在点 $p$ 附近的最优线性逼近（局部线性），也就是说，当 $x$ 足够靠近 $p$ 时，存在：
$\approx F(p)+ J_F(p)\cdot(x-p)$

用几何方式表述：
以二维情况为例，给定一函数：
$f\left(\left[\begin{array}{l}x \\ y\end{array}\right]\right)=\left[\begin{array}{l}f_1(x,y) \\ f_2(x,y)\end{array}\right]=\left[\begin{array}{l}x+\sin (y) \\ y+\sin (x)\end{array}\right]$

现在把所有 $(x, y)$ 点，移动到 $(x+\sin y,y+\sin x)$ ，它会变成如下样子：

在这里插入图片描述
这不是一个线性变换，所有的输出线已不是平行且平均分布的网格线。

要弄清楚发生了什么，聚焦于一个点比较好，已知点 $p = (- 2, 1)$ ，则 $f\left(\left[\begin{array}{l}-2 \\ 1\end{array}\right]\right)=\left[\begin{array}{l}-2+ \sin 1 \\ 1 + \sin -2\end{array}\right]$

这种变化较为棘手，每个点的变换不能只用相同四个数字的二维矩阵。但是这种函数变换也有一些比较简单的性质-----局部线性：这意味着如果我们回到初始的位置，然后放大某一个点，可以从图中放大视角看到，这个变换虽然不是线性的，但它比刚刚更像是一个线性函数，这些线更像网格线，保持平行且等距（图左），当放大更大倍数时，看起来更像某个线性函数变换（图右）：

考虑在原始坐标系中，向右一小步，微小的沿着 $x$ 方向的一小步，这一小步会在变换之后变成在输出空间中的一小步：它不再是单纯沿着 $x$ 方向了，它除了有向右的分量，还有向下的分量。

在这里插入图片描述
继续看上图，输出量移动的 $x$ 分量为 $\partial f_1/\partial x$ ；移动的 $y$ 分量为 $\partial f_2/\partial x$ ，这两个量均是由 $x$ 方向的微小改变 $\partial x$ 引起的。随着图像放大视角，这个量一般是一个常数。

同理沿着 $y$ 方向一小步，可以得到下图在输出空间中的一小步：

在这里插入图片描述
此时完整的 Jacobian Matrix 可得：
$\left[\begin{array}{ll} \partial f_1/\partial x & \partial f_1/\partial y \\ \partial f_2/\partial x & \partial f_2/\partial y \\ \end{array}\right]= \left[\begin{array}{ll} 1 & \cos y \\ \cos x & 1 \\ \end{array}\right]$

矩阵内，第一个列向量表明了第一个基向量的去处，第二个列向量表明了第二个基向量的去处。

当在点 $(- 2, 1)$ 评估每一个偏导时，将会得到确切的数字来组成一个 $2 * 2$ 矩阵，这个矩阵表示这个点放大之后的线性变换的样子。

1.3 雅克比矩阵应用

高斯牛顿法
考虑一条满足以下方程的曲线： $y=exp(ax^2+bx+c)+w$
其中， $a, b, c$ 为曲线的参数， $w$ 为高斯噪声，满足 $\sim(0,\sigma^2)$ 。
假设有 $N$ 个关于 $x, y$ 的观测数据点，需要根据这些数据点求出曲线的参数。可以求解下面的最小二乘问题以估计曲线参数：
                                                         $\min _{a, b, c} \frac{1}{2} \sum_{i=1}^{N}\left\|y_{i}-\exp \left(a x_{i}^{2}+b x_{i}+c\right)\right\|^{2}$
在这个问题中，待估计的变量是 $a, b, c$ ，而不是 $x$ 。我们的程序里先根据模型生成 $x, y$ 的真值，然后在真值中添加高斯分布的噪声（生成带噪声数据）。随后，使用高斯牛顿法从带噪声的数据拟合参数模型。

定义误差为：
                                                         $e_{i}=y_{i}-\exp \left(a x_{i}^{2}+b x_{i}+c\right)$
那么，可以求出每个误差项对于状态变量的导数：
                                                         $\frac{\partial e_{i}}{\partial a}=-x_{i}^{2} \exp \left(a x_{i}^{2}+b x_{i}+c\right)$
                                                         $\frac{\partial e_{i}}{\partial b}=-x_{i} \exp \left(a x_{i}^{2}+b x_{i}+c\right)$
                                                         $\frac{\partial e_{i}}{\partial c}=-\exp \left(a x_{i}^{2}+b x_{i}+c\right)$
于是雅克比矩阵 $J_i=[\frac{\partial e_{i}}{\partial a},\frac{\partial e_{i}}{\partial b},\frac{\partial e_{i}}{\partial c}]^T$ ，
假设有100个观测数据点，高斯牛顿法的增量方程为：
                                                         $\left(\sum_{i=1}^{100} \boldsymbol{J}_{i}\left(\sigma^{2}\right)^{-1} \boldsymbol{J}_{i}^{\mathrm{T}}\right) \Delta \boldsymbol{x}_{k}=\sum_{i=1}^{100}-J_{i}\left(\sigma^{2}\right)^{-1} e_i$
其中 $\Delta x_k$ 为增量。
求解上述线性方程： $H x = b$ ，
其中 $JJ^T$ 作为牛顿法中二阶海塞（Hessian）矩阵的近似，从而省略了计算 $H$ 的过程。