SLAM数学基础

最新推荐文章于 2023-10-07 21:29:04 发布

愤怒的卤蛋

最新推荐文章于 2023-10-07 21:29:04 发布

阅读量574

点赞数

分类专栏：笔记文章标签：线性代数矩阵几何学

本文链接：https://blog.csdn.net/qq_42823933/article/details/122499243

版权

笔记专栏收录该内容

8 篇文章 3 订阅

订阅专栏

三维刚体运动

旋转矩阵

点、向量和坐标系

任意向量 $\pmb a$ 在一组基 $(\pmb e_1,\pmb e_2,\pmb e_3)$ 下的坐标

$\pmb a = [\pmb e_1,\pmb e_2,\pmb e_3 ] \begin{bmatrix} a_1\\a_2\\a_3 \end{bmatrix} = a_1 \pmb e_1 + a_2 \pmb e_2 + a_3 \pmb e_3$
两个向量的内积
$\pmb a \cdot \pmb b = \pmb a^T \pmb b = \sum^3_{i=1}a_ib_i = \mid \pmb a\mid \mid b \mid \cos<a,b> \tag{内积}$
两个向量的外积

$\pmb a \times \pmb b = \begin{Vmatrix} \pmb e_1 &\pmb e_2 &\pmb e_3\\ a_1 & a_2 & a_3\\ b_1 & b_2 & b_3 \end{Vmatrix}= \begin{bmatrix} a_2b_3-a_3b_2\\ a_3b_1-a_1b_3\\ a_1b_2-a_2b_1 \end{bmatrix}= \begin{bmatrix} 0&-a_3&a_2\\ a_3&0&-a_3\\ -a_2&a_1&0 \end{bmatrix}\pmb b \triangleq a ^\wedge b \tag{外积}$
外积的结果是一个向量，方向垂直于这两个向量，大小为 $\mid \pmb a \mid \mid \pmb b \mid \sin<a,b>$ ，是两个向量张成的四边形的有向面积。通过定义 $\pmb a$ 的反对称矩阵 $(\rm Skew-symmetric \ Matrix)$ ， $a^\wedge$ 把向量外积写成了矩阵和向量的乘法，变成了一个线性运算。
$a^\wedge = \begin{bmatrix} 0&-a_3&a_2\\ a_3&0&-a_3\\ -a_2&a_1&0 \end{bmatrix} \tag{反对称矩阵}$

坐标系间的欧式变换

两个坐标系之间的运动由一个旋转加上一个平移组成，这种运动称为刚体运动。刚体运动过程中，同一个向量在各个坐标系下的长度和夹角都不会发生变化，两个坐标系相差了一个欧式变换 $\rm Euclidean \ Transform$ 。

设某个单位正交基 $(\pmb e_1,\pmb e_2,\pmb e_3)$ 经过一次旋转变成了 $(\pmb e_1',\pmb e_2',\pmb e_3')$ 。那么，对于同一个向量 $\pmb a$ ,它在两个坐标系下的坐标为 $a_1,a_2,a_3]^T$ 和 $a_1',a_2',a_3']^T$ 。由定义可知下式相等：

$[\pmb e_1,\pmb e_2,\pmb e_3] \begin{bmatrix} a_1\\a_2\\a_3 \end{bmatrix}= [\pmb e_1',\pmb e_2',\pmb e_3'] \begin{bmatrix} a_1'\\a_2'\\a_3' \end{bmatrix}$

两边同时左乘 $\begin{bmatrix}\pmb e_1^T\\\pmb e_2^T\\\pmb e_3^T\end{bmatrix}$ ,左边就变成了单位矩阵 $I$ ,得到如下等式：

$\begin{bmatrix} a_1\\ a_2\\ a_3 \end{bmatrix}= \begin{bmatrix} \pmb e_1^T \pmb e_1'&\pmb e_1^T \pmb e_2'&\pmb e_1^T \pmb e_3'\\ \pmb e_2^T \pmb e_1'&\pmb e_2^T \pmb e_2'&\pmb e_2^T \pmb e_3'\\ \pmb e_3^T \pmb e_1'&\pmb e_3^T \pmb e_2'&\pmb e_3^T \pmb e_3'\\ \end{bmatrix} \begin{bmatrix} a_1'\\ a_2'\\ a_3' \end{bmatrix} \triangleq \pmb R \pmb a' \tag{旋转矩阵}$

矩阵 $\pmb R$ 描述了旋转本身，被称为旋转矩阵 $\rm Rotation \ Matrix$ ，是一个行列式为 $1$ 的正交矩阵。反之，行列式为 $1$ 的正交矩阵也是一个旋转矩阵。可将 $n$ 维旋转矩阵的集合定义如下，这种矩阵是特殊正交群 $\rm Special \ Orthogonal \ Group$ 。
$\{\pmb R \in \mathbb R^{n \times n} \mid \pmb R \pmb R^T = \pmb I,det(\pmb R)=1\} \tag{SO}$
它的逆（即转置）描述了一个相反的旋转
$\pmb a' = \pmb R^{-1} \pmb a = \pmb R^T \pmb a$
由于坐标系的平移只需要添加一个平移向量差值 $\pmb t$ ,所以得到两个坐标系的欧式变换方程
$\pmb a_1 = \pmb R_{12} \pmb a_2 + \pmb t_{12} \tag{变换方程}$

这里的 $\pmb R_{12}$ 的下标是从右往左读的，因为向量乘在它的右边，所以读作“把坐标系 $2$ 的向量变换到坐标系 $1$ ”中，然后添加一个平移分量。这里的平移分量是坐标系 $1$ 原点指向坐标系 $2$ 原点的向量。

变换矩阵与齐次坐标

由于上述的变换方程不是线性的，当经过多次坐标系变换时，表达或计算时复杂的，为此引入齐次坐标和变换矩阵，重写上述的变换方程

$\begin{bmatrix} \pmb a'\\1 \end{bmatrix}= \begin{bmatrix} \pmb R &\pmb t\\ \pmb 0^T&1 \end{bmatrix} \begin{bmatrix} \pmb a\\1 \end{bmatrix} \triangleq \pmb T \begin{bmatrix} \pmb a\\1 \end{bmatrix}$
在三维向量的末尾添加 $1$ ,将其变成了四维向量，称为齐次坐标。

变换矩阵 $\pmb T$ ，左上角为旋转矩阵，右侧为平移向量，左下角为 $\pmb 0$ 向量,右下角为 $1$ 。这种矩阵又称为特殊欧氏群 $\rm Special\ Euclidean \ Group$
$\left\{ \pmb T = \begin{bmatrix} \pmb R &\pmb t\\ \pmb 0^T&1 \end{bmatrix} \in \mathbb R^{(n+1) \times (n+1)} \mid \pmb R \in SO(n), \pmb t \in \mathbb R^n \right\}$
它的逆描述了一个反向的变化
$\pmb T^{-1} = \begin{bmatrix} \pmb R^T &-\pmb R^T\pmb t\\ \pmb 0^T&1 \end{bmatrix}$

$\rm Eigen$ 代数库的使用

旋转向量和欧拉角

旋转向量

希望有一种方式能够紧凑的描述旋转和平移。事实上，任意旋转都可以用一个旋转轴和一个旋转角来刻画。旋转向量（轴角/角轴， $\rm Axis-Angle$ ）,其方向与旋转轴一致，而长度等于旋转角。考虑到某个用 $\pmb R$ 表示的旋转。如果用旋转向量来描述，假设旋转轴为一个单位长度的向量 $\pmb n$ ,角度为 $\theta$ ,那么向量 $\theta \pmb n$ 也可以描述这个旋转。
从旋转向量到旋转矩阵的转换过程由罗德里格斯公式 $\rm Rodrigue's \ Formula$ 表明
$\pmb R = \cos \theta \pmb I + (1-\cos \theta) \pmb n \pmb n^T + \sin \theta \pmb n^\wedge$
符号 $^\wedge$ 是向量到反对称矩阵的转换符。
反之，也可以计算一个旋转矩阵到旋转向量的转换。对于转角 $\theta$ ,
$\theta = \arccos \frac{tr(R)-1}{2}$
关于转轴 $\pmb n$ ,旋转轴上的向量在旋转后不发生变化，说明
$\pmb R \pmb n = \pmb n$

因此，转轴 $n$ 是矩阵 $\pmb R$ 特征值 $1$ 对应的特征向量。求此方程，再归一化，就得到了旋转轴。

欧拉角

欧拉角提供了一种非常直观的方式来描述旋转，它使用了 $3$ 个分离的转角，把一个旋转分解成3次绕不同轴的旋转。欧拉角使用偏航-俯仰-滚转 $\rm yaw-pitch-roll$ , $3$ 个角度来描述一个旋转。它等价于 $Z Y X$ 轴的旋转。假设一个刚体的前方为 $X$ 轴，右侧为 $Y$ 轴，上方为 $Z$ 轴。可以把任意旋转分解为以下操作

绕物体的 $Z$ 轴旋转，得到偏航角 $\rm yaw$
绕旋转之后的 $Y$ 轴旋转，得到俯仰角 $\rm pitch$
绕旋转之后的 $X$ 轴旋转，得到滚转角 $\rm roll$

欧拉角存在奇异性问题，在俯仰角为 $±90 \pm 90$ 度时，第一次旋转与第三次旋转将使用同一个轴，使得系统丢失了一个自由度。因此欧拉角不适用于插值和迭代，往往只用于人机交互中。

四元数

四元数定义

可以证明找不到不带奇异性的三维向量描述方式。四元数是 $\rm Hamilton$ 找到的一种扩展的复数。它既是紧凑的，也没有奇异性。
把四元数与复数类比可以较好的理解四元数。例如，当我们想要将复平面的向量旋转 $\theta$ 角度时，可以给这个复向量乘以 $e^{i\theta} = \cos \theta + i \ \sin \theta$ 。所以，在二维的情况下，旋转可以由单位复数来描述。类似的三维旋转可以由单位四元数来描述。
一个四元数 $\pmb q$ 拥有一个实部和三个虚部。
$\pmb q = q_0+q_1i+q_2j+q_3k = [s,\pmb v]^T\{s = q_0,\pmb v = [q_1,q_2,q_3]^T\}$

$s$ 称为四元数的实部， $\pmb v$ 称为四元数的虚部。如果虚部为0，称为实四元数；如果实部为0，则称为虚四元数。虚部满足下列条件
$\begin{cases} i^2=j^2=k^2 = -1\\ ij = k,ji = -k\\ jk = i,kj = -i\\ ki = j,ik = -j \end{cases}$

四元数运算

加法和减法

$\pmb q_a \pm \pmb q_b = [s_a \pm s_b,\pmb v_a \pm \pmb v_b]^T$

乘法
每一项分别相乘后相加

$\pmb q_a \pmb q_b = [s_as_b-\pmb v_a^T\pmb v_b,s_a\pmb v_b+s_b \pmb v_a + \pmb v_a \times \pmb v_b]^T$

模长

$\mid\mid \pmb q_a \mid\mid = \sqrt{s_a^2+x_a^2+y_a^2+z_a^2}$

$\mid \mid \pmb q_a \pmb q_b \mid\mid = \mid\mid \pmb q_a \mid\mid \cdot \mid\mid \pmb q_b \mid\mid$

共轭

$\pmb q_a^* = [s_a,-\pmb v_a]^T$

$\pmb q^* \pmb q = \pmb q \pmb q^* = [s_a^2+\pmb v^T\pmb v,0]^T$

$\pmb q^{-1} = \pmb q^* / \mid\mid \pmb q \mid\mid ^2,\pmb q \pmb q^{-1} = \pmb 1,(\pmb q_a \pmb q_b)^{-1} = q_b^{-1} q_a^{-1}$

数乘

$\pmb q = [ks,k\pmb v]^T$

用四元数表示旋转

我们可以用四元数表达对一个点的旋转。假设有一个空间三维点 $\pmb p=[x,y,z] \in \mathbb{R}^3$ ,以及一个由单位四元数 $\pmb q$ 指定的旋转。三维点 $\pmb p$ 经过旋转之后变为 $\pmb p'$ 。
首先把三维空间点用一个虚四元数来描述
$\pmb p = [0,x,y,z]^T = [0,\pmb v]^T$
旋转后的点 $\pmb p'$ 可表示为这样的乘积
$\pmb p' = \pmb q \pmb p \pmb q^{-1}$

相似、仿射、射影变换

相似变换

相似变换比欧式变换多了一个自由度-缩放因子 $s$ ，它允许物体进行均匀缩放。

$\pmb T s = \begin{bmatrix} s \pmb R &t\\ \pmb 0^T &1 \end{bmatrix}$

仿射变换

与欧式变换不同，仿射变换只要求 $A$ 是一个可逆矩阵，而不必是正交矩阵。仿射变换也叫做正交投影。

$\pmb T_A = \begin{bmatrix} \pmb A & \pmb t\\ \pmb 0^T & 1 \end{bmatrix}$

射影变换

射影变换是最一般的变换。左上角为可逆矩阵 $A$ ，右上角为平移 $\pmb t$ ，左下角为所缩放 $\pmb a^T$ 。由于采样了齐次坐标，当 $\neq 0$ 时，我们可以对整个矩阵除以 $v$ 得到一个右下角为 $1$ 的矩阵；否则得到右下角为 $0$ 的矩阵

$\pmb T_P = \begin{bmatrix} \pmb A &\pmb t\\ \pmb a^T &v \end{bmatrix}$

代码实现

数据结构	`Eigen::`
旋转矩阵 $\times 3$	`Matrix3d`
旋转向量 $\times 1$	`AngleAxisd`
欧拉角 $\times 1$	`Vector3d`
四元数 $\times 1$	`Quaterniond`
欧式变换矩阵 $\times 4$	`Isometry3d`
仿射变换 $\times 4$	`Affine3d`
射影变换 $\times 4$	`Projective3d`

$\rm Eigen$ 几何模块的数据演示

李群与李代数

由于$ \rm SLAM$中的状态估计问题是一个优化问题，因此涉及到用于描述相机位姿的变量的求导。因此引入李群与李代数。

群

群是一种集合加上一种运算的代数结构。我们把集合记作 $A$ ，运算记作 $\cdot$ ,那么群可以记作 $G=(A,\cdot)$ 。群必须满足下列性质

封闭性： $\forall a_1,a_2 \in A,a_1 \cdot a_2 \in A$
结合律： $\forall a_1,a_2,a_3 \in A,(a_1 \cdot a_2) \cdot a_3 = a_1 \cdot (a_2 \cdot a_3)$
零元： $\exists a_0 \in A, \ \ s.t. \ \exists a\in A,a_0 \cdot a = a \cdot a_0 = a$
逆： $\forall a \in A, \exists a^{-1} \in A, \ \,s.t. \ \ a \cdot a^{-1}=a_0$

矩阵中常见的群有：

一般线性群 $G L (n)$ ：指 $\times n$ 的可逆矩阵，他们对矩阵乘法成群。
特殊正交群 $S O (n)$ ：也就是所谓的旋转矩阵群，其中 $S O (2)$ 和 $S O (3)$ 最为常见。
特殊欧氏群 $S E (n)$ ：也就是前面提到的 $n$ 维欧式变换，如 $S E (2)$ 和 $S E (3)$ 。

李群是指具有连续（光滑）性质的群，如 $S O (3), S E (3)$

李代数的引出

旋转矩阵对时间的导数是一个反对称矩阵右乘它本身

$\dot{\pmb{R}}(t) = \pmb \phi(t)^\wedge \pmb R(t) = \begin{bmatrix} 0 &-\phi_3&\phi_2\\ \phi_3&0&-\phi_1\\ -\phi_2&\phi_1&0 \end{bmatrix} \pmb R(t)$

李群空间的任意一个旋转矩阵 $\pmb R$ 都可以用李代数空间的一个向量 $\dot{\pmb{R}}(t_0) =\pmb \phi(t_0) = \pmb \phi_0$ 的反对称矩阵指数来近似

$\pmb R(t) = \exp(\pmb \phi_0^\wedge \pmb t)$

李代数的定义

每个李群都有与之对应的李代数。李代数描述了李群的局部性质，是单位元附近的正切空间。李代数的定义如下：

李代数由一个集合 $\mathbb V$ ，一个数域 $\mathbb F$ 和一个二元运算 $[,]$ 组成。如果满足以下性质，则称 $(\mathbb V,\mathbb F,[,])$ 为一个李代数，记为 $\frak g$

封闭性： $\forall \pmb X,\pmb Y \in \mathbb V,[\pmb X,\pmb Y] \in \mathbb V$
双线性： $\forall \pmb X,\pmb Y ,\pmb Z \in \mathbb V,a,b \in \mathbb F$ ,有
$[a\pmb X+b\pmb Y,\pmb Z] = a[\pmb X,\pmb Z] +b[\pmb Y,\pmb Z]\\ [\pmb Z,a\pmb X+b\pmb Y] = a[\pmb Z,\pmb X] + b[\pmb Z,\pmb Y]$
自反性： $\forall \pmb X\in \mathbb V,[\pmb X,\pmb X] = 0$
雅可比等价： $\forall \pmb X,\pmb Y,\pmb Z \in \mathbb V,[\pmb X,[\pmb Y,\pmb Z]] + [\pmb Z,[\pmb X,\pmb Y]] + [\pmb Y,[\pmb Z,\pmb X]] = 0$

其中二元运算被称为李括号。

李代数$\frak so \rm (3) $

之前提到的 $\phi$ ，事实上是一种李代数。 $S O (3)$ 对应的李代数是定义在 $\mathbb R ^3$ 上的向量，我们记作 $\phi$ 。其中 $\pmb \Phi = \phi^\wedge$ 。$\frak so \rm (3) $是一个三维向量组成的集合，每个向量对应一个反对称矩阵，可以用于表示旋转矩阵的导数。

李括号

$[\pmb\phi_1,\pmb\phi_2] = (\pmb \Phi_1\pmb \Phi_2 - \pmb \Phi_2\pmb \Phi_1)^{\vee}$

$\frak so \rm (3) $定义

$\frak so \rm{(3)} = \{\phi \in \mathbb{R}^3,\Phi\ = \phi^\wedge \in \mathbb{R}^{3 \times 3}\}$

指数映射

$\pmb R = \exp(\pmb \phi^\wedge) = \exp(\theta \pmb a^\wedge) = \cos \theta \pmb I+(1-\cos \theta)\pmb a \pmb a^T + \sin \theta \pmb a^\wedge$

对数映射

$\theta = \arccos \frac{tr(\pmb R)-1}2,\pmb R\pmb a = \pmb a$

李代数$\frak se \rm (3) $

李括号

$[\pmb \xi_1,\pmb \xi_2] = (\pmb \xi_1^\wedge\pmb \xi_2^\wedge,\pmb \xi_2^\wedge\pmb \xi_1^\wedge)^\vee$

$\frak se \rm (3) $定义

$\frak se \rm (3) = \Big\{ \pmb \xi=\begin{bmatrix}\pmb\rho\\\pmb\phi\end{bmatrix} \in \mathbb{R}^6,\pmb \rho \in \mathbb{R}^3,\pmb \phi\in \frak so \rm (3),\pmb \xi^\wedge= \begin{bmatrix}\pmb\phi&\pmb\rho\\\pmb 0^T &0\end{bmatrix} \in \mathbb R^{4 \times 4} \Big\}$

我们把每个$\frak se \rm (3) $元素记作$ \pmb \xi $，他是一个六维向量。前三维为平移，记作$ \pmb \rho $；后三维位旋转，记作$ \pmb \phi $，实际上是$ \frak so \rm (3) $的元素。同时扩展了$ ^\wedge $的含义。在$ \frak se \rm (3) $中，使用$ ^\wedge $将一个六维向量转换为四维矩阵，但不表示为反对称。使用$ ^\wedge$和$\vee$符号代指“从向量到矩阵”和“从矩阵到向量”的关系。

指数映射

$\pmb T = \exp(\pmb \xi^\wedge) = \exp(\theta\pmb a^\wedge) = \begin{bmatrix} \pmb R &\pmb J \pmb \rho\\ \pmb 0^T&1 \end{bmatrix}$

$\pmb J = \frac{\sin \theta}{\theta} \pmb I + (1-\frac{\sin \theta}{\theta}) \pmb a \pmb a^T + \frac{1-\cos \theta}{\theta} \pmb a^\wedge$

对数映射

$\theta = \arccos \frac{tr(\pmb R)-1}2,\pmb R\pmb a = \pmb a,\pmb t = \pmb J \pmb \rho$

李代数求导与扰动模型

BCH公式与近似公式

为了探究李代数的导数，先讨论李代数加法的性质，即探讨 $S O (3)$ 中完成两个矩阵乘法时，李代数中 $\frak so \rm(3)$ 上是否完成了两个李代数的加法。
$\ln(\exp(A)+\exp(B)) = A + B +\frac12[A,B] + \frac{1}{12}[A,[A,B]] - \frac 1{12}[B,[A,B]]+\cdots \tag{BCH}$

考虑 $S O (3)$ 上的李代数 $\ln (\exp(\phi_1^\wedge)\exp(\phi_2^\wedge))^\vee$ ,当 $\phi_1$ 或 $\phi_2$ 为小量时，小量二次以上的项都可以被忽略。此时，BCH拥有线性近似表达

$\ln(\exp(\phi_1^\wedge) \exp(\phi_2^\wedge))^\vee \approx \begin{cases} \pmb J_l(\phi_2)^{-1} \phi_1 + \phi_2 &\phi_1 \ \rm is \ the \ small \ value\\ \pmb J_r(\phi_1)^{-1} \phi_2 + \phi_1 &\phi_2 \ \rm is \ the \ small \ value\\ \end{cases} \tag{BCH近似}$
以第一个近似为例。该式告诉我们，当对一个旋转矩阵 $\pmb R_2$ （李代数为 $\phi_2$ ）左乘一个微小旋转矩阵 $\pmb R_1$ （李代数为 $\phi_1$ ）时，可以近似地看做，在原有的李代数 $\phi_2$ 上加上了一项 $\pmb J_l(\phi_2)^{-1}\phi_1$ 。同样，第二个近似描述了右乘一个微小位移的情况。于是，李代数在 $B C H$ 近似的情况下，分成了左乘和右乘近似两种。

$\pmb J_l = \pmb J = \frac{\sin \theta}{\theta} \pmb I + (1-\frac{\sin \theta}{\theta})\pmb a \pmb a^T +\frac{1-\cos \theta}{\theta} \pmb a^\wedge$

$\pmb J_l^{-1} = \frac \theta2 \cot \frac \theta 2 \pmb I +(1-\frac \theta2\cot\frac \theta2)\pmb a\pmb a^T - \frac \theta 2 \pmb a^\wedge$

$\pmb J_r(\phi) = \pmb J_l(-\phi)$

为了更好理解，简化BCH近似公式。假定对某个旋转 $\pmb R$ ，对应的李代数为 $\phi$ 。我们给它左乘一个微小旋转，记作 $\Delta \pmb R$ ，对应的李代数为 $\Delta \phi$ 。那么，在李群上得到的结果就是 $\Delta \pmb R \cdot \pmb R$ ，而在李代数上，根据BCH近似，为 $\pmb J_l^{-1}(\phi)\Delta\phi+\phi$ 。即如下所示
$\exp(\Delta \phi^\wedge) \exp(\phi^\wedge) \approx \exp\bigg((\phi+\pmb J_l^{-1}(\phi)\Delta\phi)^\wedge\bigg)$

反之，如果在李代数上进行加法，让一个 $\phi$ 加上 $\Delta\phi$ ,那么可以近似为李群上带左右雅克比的乘法
$\exp((\phi+\Delta \phi)^\wedge) \approx \exp((\pmb J_l\Delta \phi)^\wedge)\exp(\phi^\wedge) = \exp(\phi^\wedge)\exp((\pmb J_r\Delta\phi)^\wedge)$
对于 $S E (3)$ ，也有类似的近似
$\exp(\Delta\pmb \xi) \exp(\pmb \xi^\wedge) \approx \exp \bigg( ( \pmb{\mathcal{J}}_l^{-1}\Delta \pmb \xi + \pmb \xi )^\wedge \bigg)$

$\exp(\pmb \xi^\wedge) \exp(\Delta\pmb \xi) \approx \exp \bigg( ( \pmb{\mathcal{J}}_r^{-1}\Delta \pmb \xi + \pmb \xi )^\wedge \bigg)$

李代数求导

应用场景

不防设某个时刻机器人的位姿为 $\pmb T$ 。它观察到了一个世界坐标位于 $\pmb p$ 的点，产生了一个观察数据 $\pmb z$ 。那么由坐标变化关系知
$\pmb z = \pmb T \pmb p + \pmb w$
其中 $\pmb w$ 为随机噪声。由于它的存在， $\pmb z$ 往往不可能精确的满足 $\pmb z = \pmb T \pmb p$ 的关系。所以，我们通常会计算理想的观测与实际数据的误差
$\pmb e = \pmb z-\pmb T \pmb p$
假设一共有 $N$ 个这样的路标点和观测，于是就 $N$ 个上式。对机器人进行位姿估计时，相当于寻找一个最优的 $\pmb T$ ，使得整体误差最小化
$\min_{\pmb T} J(\pmb T) = \sum_{i=1}^N \mid\mid \pmb z_i-\pmb T\pmb p_i\mid\mid^2_2$
求解此问题，需要计算目标函数 $J$ 关于变化矩阵 $\pmb T$ 的导数。我们经常会构建与位姿有关的函数，然后讨论该函数关于位姿的导数，以调整当前的估计值。

求解途径

用李代数表示姿态，然后根据李代数加法对李代数求导
对李群左乘或右乘微小扰动，然后对该扰动求导，称为左扰动或右扰动模型

由于第一种方法得出的结果比第二种方法更复杂，所以普遍采用第二种方法求导

$S O (3)$ 李代数求导

对 $\pmb R$ 进行一次扰动 $\Delta R$ ，看结果相对于扰动的变化率。这个扰动以左乘为例。设左扰动对应的李代数为 $\pmb \varphi$ ，然后对 $\pmb \varphi$ 求导
$\begin{aligned} \frac{\partial (\pmb R \pmb p)}{\partial \pmb \varphi} &= \lim_{\pmb \varphi \rightarrow \pmb 0} \frac{\exp(\pmb \varphi^\wedge)\exp(\pmb \phi^\wedge)\pmb p-\exp(\pmb \phi^\wedge)\pmb p}{\pmb \varphi}\\ & = \lim_{\pmb \varphi \rightarrow \pmb 0} \frac{(\pmb I+\pmb \varphi^\wedge)\exp(\pmb \phi^\wedge)\pmb p-\exp(\pmb \phi^\wedge)\pmb p}{\pmb \varphi} \\ & = \lim_{\pmb \varphi \rightarrow \pmb 0} \frac{\pmb \varphi^\wedge\pmb R \pmb p}{\pmb \varphi} \\ & = \lim_{\pmb \varphi \rightarrow \pmb 0} \frac{-(\pmb R \pmb p)^\wedge\pmb \varphi}{\pmb \varphi}\\ & = -(\pmb R\pmb p)^\wedge \end{aligned}$

$S E (3)$ 李代数求导

假设某空间点 $\pmb p$ 经过一次变换 $\pmb T$ ，得到 $\pmb T \pmb p$ 。现在，给 $\pmb T$ 左乘一个扰动 $\Delta \pmb T = \exp(\delta \pmb \xi^\wedge)$ ，设扰动项的李代数为 $\delta \pmb \xi=[\delta \pmb p,\delta \pmb \phi]^T$ ，则
$\begin{aligned} \frac{\partial (\pmb T \pmb p)}{\partial \delta \pmb \xi} &= \lim_{\delta \pmb \xi \rightarrow \pmb 0} \frac{\exp(\delta \pmb \xi^\wedge)\exp(\pmb \xi^\wedge)\pmb p-\exp(\pmb \xi^\wedge)\pmb p}{\delta \pmb \xi}\\ &= \lim_{\delta \pmb \xi \rightarrow \pmb 0} \frac{(\pmb I+\delta \pmb \xi^\wedge)\exp(\pmb \xi^\wedge)\pmb p-\exp(\pmb \xi^\wedge)\pmb p}{\delta \pmb \xi}\\ &= \lim_{\delta \pmb \xi \rightarrow \pmb 0} \frac{\delta \pmb \xi^\wedge\exp(\pmb \xi^\wedge)\pmb p}{\delta \pmb \xi}\\ &= \lim_{\delta \pmb \xi \rightarrow \pmb 0} \frac{\begin{bmatrix}\delta\pmb\phi^\wedge &\delta\pmb\rho\\\pmb 0^T &0\end{bmatrix}\begin{bmatrix}\pmb R\pmb p+\pmb t\\1\end{bmatrix}}{\delta \pmb \xi}\\ &= \lim_{\delta \pmb \xi \rightarrow \pmb 0} \frac{\begin{bmatrix}\delta\pmb\phi^\wedge (\pmb R\pmb p+\pmb t)+\delta \pmb p\\\pmb 0^T\end{bmatrix}}{[\delta \pmb p,\delta \pmb \phi]^T}\\ &=\begin{bmatrix}\pmb E & -(\pmb R\pmb p+\pmb t)^\wedge\\\pmb 0^T &\pmb 0^T\end{bmatrix} \triangleq (\pmb T \pmb P)^{\odot} \end{aligned}$
把最后的结果定义为一个运算符$ ^\odot$，它把一个齐次坐标的空间点变换称一个 $\times 6$ 的矩阵。

上式中的矩阵求导规则为下
$\frac{d\begin{bmatrix}a\\b\end{bmatrix}}{d\begin{bmatrix}x\\y\end{bmatrix}} = \Bigg(\frac{d[a,b]^T}{d\begin{bmatrix}x\\y\end{bmatrix}}\Bigg)^T = \begin{bmatrix} \frac{da}{dx}&\frac{db}{dx}\\ \frac{da}{dy}&\frac{db}{dy} \end{bmatrix}^T = \begin{bmatrix} \frac{da}{dx}&\frac{da}{dy}\\ \frac{db}{dx}&\frac{db}{dy} \end{bmatrix}$

代码实现

Sophus的基本使用方法

评估轨迹的误差

在工程中，我们经常需要评估一个算法的估计轨迹与真实轨迹的差异来评价算法的精度。考虑一条估计轨迹 $\pmb T_{esti,i}$ 和真实轨迹 $\pmb T_{gt,i}$ ,其中 $i=1,\cdots,N$ ,那么我们可以定义一些误差来描述他们之间的差别

绝对轨迹误差 $\rm Absolute \ Trajectory \ Error,ATE$

${\rm ATE_{\rm all}} = \sqrt{\frac1N \sum_{i=1}^N\mid\mid \log(\pmb T_{gt,i}^{-1}\pmb T_{esti,i})^\vee\mid\mid_2^2}$

这实际上是每个位子李代数的均方根误差 $\rm Root-Mean-Squared \ Error,RMSE$ 。这种误差可以刻画两条轨迹的旋转和平移误差

绝对平移误差 $\rm Average \ Translational \ Error$

${\rm ATE_{\rm trans}} = \sqrt{\frac1N \sum_{i=1}^N\mid\mid trans(\pmb T_{gt,i}^{-1}\pmb T_{esti,i})\mid\mid_2^2}$

该方法只考虑平移误差。 $t r a n s$ 表示括号内部变量的平移部分。因为从整条轨迹上看，旋转出现误差后，随后的轨迹在平移上也会出现误差，所以该指标也适用于实际工作。

相对位姿误差 $\rm Relative \ Pose \ Error,RPE$

考虑 $i$ 时刻到 $i+\Delta i$ 时刻的运动

${\rm RPE_{\rm all}} = \sqrt{\frac1{N-\Delta t} \sum_{i=1}^{N-\Delta t}\mid\mid \log \Big((\pmb T_{gt,i}^{-1}\pmb T_{gi,i+\Delta t})^{-1} (\pmb T_{esti,i}^{-1}\pmb T_{esti,i+\Delta t}) \Big)^\vee\mid\mid_2^2}$

相对平移误差 $\rm Relative \ Translational \ Error,RPE$

${\rm RPE_{\rm trans}} = \sqrt{\frac1{N-\Delta t} \sum_{i=1}^{N-\Delta t}\mid\mid trans\Big((\pmb T_{gt,i}^{-1}\pmb T_{gi,i+\Delta t})^{-1} (\pmb T_{esti,i}^{-1}\pmb T_{esti,i+\Delta t}) \Big) \mid\mid_2^2}$

评估轨迹的误差

相似变换群与李代数

PASS

相机与图像

相机模型

相机将三维世界中的坐标点（单位为米）映射到二维图像平面（单位为像素）的过程能够用一个几何模型进行描述。最简单的模型是针孔模型。针孔模型是常用且有效的模型，它描述了一束光线通过针孔后，在针孔背面投影成像的关系。同时，由于相机镜头上的透镜的存在，使得光线投影到成像平面的过程中会产生畸变。我们使用针孔和畸变两个模型来描述整个投影的过程。

针孔相机模型

设 $O - x - y - z$ 为相机坐标系，我们让 $z$ 轴指向相机前方， $x$ 轴向右, $y$ 轴向下。 $O$ 是相机的光心，也是针孔模型中的针孔。现实世界中的空间点 $P=[X,Y,Z]^T$ 经过小孔 $O$ 投影后，落在物理成像平面 $O^{'} - x^{'} - y^{'} - z^{'}$ 上，成像点为 $P^{'} = [X^{'}, Y^{'}, Z^{'}]$ 。设物理成像平面到小孔的距离为 $f$ （焦距）。则
$\frac Zf = \frac X{X'} = \frac Y{Y'}$
整理得到
$\begin{aligned} X' = f \frac XZ\\ Y' = f \frac YZ \end{aligned}$
为了描述传感器将感受到的光线转换成图像像素的过程，我们设在物理成像平面上固定着一个像素平面 $o - u - v$ 。我们在像素平面得到了 $P^{'}$ 的像素坐标： $u,v]^T$ 。

像素坐标系的原点 $o$ 位于图像的左上角， $u$ 轴向右与 $x$ 轴平行， $v$ 轴向下与 $y$ 轴平行。像素坐标系与成像平面之间，相差了一个缩放和一个原点的平移。我们设像素坐标在 $u$ 轴上缩放了 $\alpha$ 倍，在 $v$ 轴上缩放了 $\beta$ 倍。同时，原点平移了 $c_x,c_y]^T$ 。那么， $P^{'}$ 像素坐标 $u,v]^T$ 的关系为
$\begin{cases} u = \alpha X' +c_x\\ v = \beta Y' + c_y \end{cases} \rightarrow \begin{cases} u = \alpha f \frac XZ +c_x\\ v = \beta f \frac YZ + c_y \end{cases} \rightarrow \begin{cases} u = f_x \frac XZ +c_x\\ v = f_y \frac YZ + c_y \end{cases}$
写成矩阵形式，得到
$\begin{bmatrix}u\\v\\1\end{bmatrix} = \frac 1Z \begin{bmatrix} f_x&0&c_x\\ 0&f_y&c_y\\ 0&0&1 \end{bmatrix} \begin{bmatrix}X\\Y\\Z\end{bmatrix} \triangleq \frac 1Z \pmb K \pmb P$
习惯上将 $Z$ 挪到左边
$(camera_f to image_f) Z \begin{bmatrix}u\\v\\1\end{bmatrix} = \begin{bmatrix} f_x&0&c_x\\ 0&f_y&c_y\\ 0&0&1 \end{bmatrix} \begin{bmatrix}X\\Y\\Z\end{bmatrix} \triangleq \pmb K \pmb P \tag{camera\_f to image\_f}$
我们把中间的量组成的矩阵称为相机的内参数 $\rm Camera \ Intrinsics$ 矩阵 $\pmb K$ 。

上式中 $\pmb P$ 是 $\pmb P$ 在相机坐标系下的坐标，它的世界坐标系 $P_W$ 是根据相机的当前位姿变化到相机坐标系下的结果。相机的位姿由它的旋转矩阵 $\pmb R$ 和平移向量 $\pmb t$ 来描述，则
$(Word_f to imgae_f) Z \pmb P_{uv} = Z \begin{bmatrix}u\\v\\1\end{bmatrix} = \pmb K(\pmb R \pmb P_W +\pmb t) = \pmb K \pmb T \pmb P_W \tag{Word\_f to imgae\_f}$
相机的位姿 $\pmb R,\pmb t$ 又称为相机的外参数 $\rm Camera \ Extrinsics$ 。

相机的成像模型的另一种描述。我们可以把一个世界坐标点先转换到相机坐标系，再除掉它的最后一维的数值（即该点距离相机成像平面的深度），这相当于把最后一维进行归一化处理，得到点 $P$ 在相机归一化平面（ $Z = 1$ ）上的投影
$(W_f to c_f to z=1_f) (\pmb R \pmb P_W +\pmb t) = [X,Y,Z]^T \rightarrow [X/Z,Y/Z,1]^T \tag{W\_f to c\_f to z=1\_f}$

畸变模型

为了获得更好的成像效果，我们在相机的前方加了透镜。透镜的加入会对成像过程中光线的传播产生新的影响：

一是透镜自身的形状对光线传播的影响
二是在机械组装过程中，透镜和成像平面不可能完全平行，这也会使光线穿过透镜投影到成像面时的位置发生变化。

由透镜形状引起的畸变称为径向畸变。在针孔模型中，一条直线投影到像素平面上还是一条直线。可是,在实际拍摄的照片中，摄像机的透镜往往使得真实环境中的一条直线在图片中变成了曲线。越靠近图像的边缘，这种现象越明显。由于实际加工制作的透镜往往是中心对称的，这使得不规则的畸变通常径向对称。它们主要分为两大类:桶形畸变和枕形畸变。

桶形畸变图像放大率随着与光轴之间的距离增加而减小，而枕形畸变则恰好相反。在这两种畸变中，穿过图像中心和光轴有交点的直线还能保持形状不变。
除了透镜的形状会引径向畸变，由于在相机的组装过程中不能使透镜和成像面严格平行，所以也会引入切向畸变。
使用数学形式对两者进行描述。考虑归一化平面上的任意一点 $\pmb p$ ，它的坐标为 $x,y]^T$ ,也可以写成极坐标的形式 $[r,\theta]^T$ ,其中 $r$ 表示点 $\pmb p$ 与坐标系原点之间的距离， $\theta$ 表示与水平轴的夹角。径向畸变可以看成坐标点沿着长度方向发生了变化，也就是其距离原点的长度发生了变化。切向畸变可以看成坐标点沿着切线方向发生了变化，也就是水平夹角发生了变化。通常假设这些畸变成多项式关系,即
$\begin{aligned} &x_{\rm distored} = x(1+k_1r^2+k_2r^4+k_3r^6)\\ &y_{\rm distored} = y(1+k_1r^2+k_2r^4+k_3r^6) \end{aligned}$
其中， $[x_{\rm distored},y_{\rm distored}]$ 是畸变后点的归一化坐标。
对于切向畸变，可以使用另外两个参数 $p_1,p_2$ 进行纠正
$\begin{aligned} &x_{\rm distored} = x + 2p_1xy + p_2(r^2+2x^2)\\ &y_{\rm distored} = y + p_1(r^2+2y^2) + 2p_2xy \end{aligned}$
因此，联合上面的公式，对于相机坐标系中一点 $P$ ,我们能通过 $5$ 个畸变参数找到这个点在像素平面上的正确位置：

将三维空间点投影到归一化图像平面。设它的归一化坐标为 $x,y]^T$
对归一化平面上的点计算径向畸变和切向畸变
$\begin{cases} x_{\rm distored} = x(1+k_1r^2+k_2r^4+k_3r^6) + 2p_1xy + p_2(r^2+2x^2)\\ y_{\rm distored} = y(1+k_1r^2+k_2r^4+k_3r^6) + 2p_2xy + p_1(r^2+2y^2) \end{cases}$
将畸变后的点通过内参数矩阵投影到像素平面，得到该点在图像上的正确位置
$\begin{cases} u = f_x x_{\rm distored} +c_x\\ v = f_y y_{\rm distored} + c_y \end{cases}$
最后总结单目相机的成像过程如下
世界坐标系下有一个固定的点 $P$ ,相机的世界坐标系为 $\pmb P_W$
由于相机在运动，它的运动由 $\pmb R,\pmb t$ 或变换矩阵 $\pmb T \in SE(3)$ 描述。 $P$ 的相机坐标为 $\hat{\pmb P_c} = \pmb R \pmb P_W + \pmb t$
这时的 $\hat{\pmb P_c}$ 的分量为 $X, Y, Z$ ,把它们投影到归一化平面 $Z = 1$ 上，得到 $P$ 的归一化坐标： $\pmb P_c = [X/Z,Y/Z,1]^T$
有畸变时，根据畸变参数计算 $\pmb P_c$ 发生畸变后的坐标
$P$ 的归一化坐标经过内参后，得到它的像素坐标： $\pmb P_{uv} = \pmb K \pmb P_{c}$

图像去畸变

双目相机模型

双目相机模型原理是通过采集左右相机的图像，计算图像间视差，以便估计每一个像素的深度。

$O_L$ 与 $O_R$ 之间的距离称为双目相机的基线（记作 $b$ ），是双目相机的重要参数。

根据三角形相似原理，可推导出下面公式
$\frac {fb}{u_L-u_R} \triangleq \frac {fb}d$
其中 $d$ 定义为左右图的横坐标之差，称为视差。根据视差，我们可以估计一个像素与相机之间的距离。视差与距离成反比，视差越大，距离越近。同时，由于视差最小单位是一个像素，因此双目的深度存在一个理论最大值由 $f b$ 决定。

双目视觉

RGB-D相机模型

$\rm RGB-D$ 相机能够主动测量每个像素的深度。

通过**红外结构光 $\rm Structured \ Light$ **原理测量像素距离。相机根据返回的结构光图案，计算物体与自身之间的距离。
通过**飞行时间 $\rm Time-of-Flight,ToF$ **原理测量像素距离。相机向目标发射脉冲光，然后根据发送到返回之间的光束飞行时间，确定物体与自身的距离。

RGB-D视觉

非线性优化

$ \rm SLAM$问题的数学描述

将连续时间采样为 $1,\cdots,K$ 个离散时间。用 $\pmb x$ 表示机器人自身的位置。机器人各时刻的位置为 $\pmb x_1,\cdots,\pmb x_K$ ，它们构成了机器人的轨迹。地图方面，我们假设地图是由许多个路标组成的，而每个时刻，传感器会测量到一部分路标点，得到他们的观测数据。设路径点一共由 $N$ 个，用 $\pmb y_1,\cdots,\pmb y_N$ 表示它们。 $\pmb u_k$ 是运动传感器的读入或者输入， $\pmb w_k$ 为该过程加入的噪声。
$\pmb x_k = f(\pmb x_{k-1},\pmb u_k)+\pmb w_k \tag{运动方程}$
$\pmb z_{k,j}$ 为机器人在 $\pmb x_k$ 位置上看到路径点 $\pmb y_j$ 的观测数据。 $\pmb v_{k,j}$ 是观测的噪声。
$\pmb z_{k,j} = h(\pmb y_j,\pmb x_k)+\pmb v_{k,j} \tag{观测方程}$

状态估计问题

批量状态估计与最大后验估计

问题引出

在运动和观测方程中，我们假设两个噪声 $\pmb w_k,\pmb v_{k,j}$ 满足如下的高斯分布
$\begin{aligned} &\pmb w_k \sim \mathcal N(0,\pmb R_k)\\ &\pmb v_{k,j} \sim \mathcal N(0,\pmb Q_{k,j}) \end{aligned}$
$\pmb R_k,\pmb Q_{k,j}$ 为协方差矩阵。
在这些噪声的影响下，我们希望通过带噪声的数据 $\pmb z$ 和 $\pmb u$ 推断位姿 $\pmb x$ 和地图 $\pmb y$ （以及它们的概率分布）,这构成了一个状态估计问题。

解决方法

增量/渐进法 $\rm incremental$ (滤波器)：由于在$ \rm SLAM $过程中，数据是随时间逐渐到来的，根据已经持有的当前时刻的估计状态，在新的数据到来时进行更新。仅关心当前时刻的状态估计$ \pmb x_k$，不考虑之前的状态
批法量 $\rm batch$ ：把数据攒起来一并处理。可以在更大的范围达到最优化，被认为优于传统的滤波器，成了当前视觉$ \rm SLAM$的主流方法。
$\rm SfM, Structure\ from \ Motion$ ：批量法的极端方式。让机器人或无人机收集所有时刻的数据，再带回计算中心统一处理。但这种处理方式有时候会失去实时性。
滑动窗口估计法：一种折衷方法，固定一些历史轨迹，仅对当前时刻附近的一些轨迹进行优化。

批量状态估计

机器人位姿和路标点坐标定义如下：
$\begin{aligned} &\pmb x= \{\pmb x_1,\cdots,\pmb x_N\} \\ &\pmb y = \{\pmb y_1,\cdots, \pmb y_M \} \end{aligned}$
用不带下标的 $\pmb u$ 表示所有时刻的输入， $\pmb z$ 表示所有时刻的观测数据。对机器人的状态估计，从概率学的观点来看，就是已知输入数据 $\pmb u$ 和观测数据 $\pmb z$ 的条件下，求状态 $\pmb x,\pmb y$ 的条件概率分布
$P(\pmb x,\pmb y \mid \pmb z,\pmb u)$
特别的，如果不知道 $\pmb u$ ，则为 $\rm SfM$ 问题，即从许多图像中重建三维空间结构。
为了估计状态变量的条件分布，由贝叶斯公式，有
$P(\pmb x,\pmb y \mid \pmb z,\pmb u) = \frac{P(\pmb z,\pmb u\mid \pmb x,\pmb y)P(\pmb x,\pmb y)}{P(\pmb z,\pmb u)} = P(\pmb z,\pmb u \mid \pmb x,\pmb y) P(\pmb x,\pmb y)$
$P(\pmb x,\pmb y \mid \pmb z,\pmb u)$ 是一个后验概率， $P(\pmb z,\pmb u \mid \pmb x,\pmb y)$ 被称为似然 $\rm Likehoid$ ，而 $P(\pmb x,\pmb y)$ 是一个先验概率 $\rm Prior$ 。这样一个后验概率变成了一个似然和一个先验概率的乘积。直接求后验分布是困难的，但是求一个状态最优估计，使得在该状态下后验概率最大是可行的
$(\pmb x,\pmb y)^*_{\rm{MAP}} = \arg \max P(\pmb x,\pmb y \mid \pmb z,\pmb u) = \arg \max P(\pmb z,\pmb u \mid \pmb x ,\pmb y) P(\pmb x,\pmb y)$
如果我们不知道机器人位姿或路标大概在什么地方，也就没有了先验，则可以求解最大似然估计 $\rm Maximize \ Likehood \ Estimation,MLE$ ，即在什么样的状态下，最有可能产生观测到的数据。
$\pmb x,\pmb y)^*_{\rm{MLE}} = \arg \max P(\pmb z,\pmb u \mid \pmb x,\pmb y)$

最小二乘的引出

对某一次观测:
$\pmb z_{k,j} = h(\pmb y_j,\pmb x_k) + \pmb v_{k,j}$
由于 $\pmb v_k \sim \mathcal N(0,\pmb Q_{k,j})$ ，所以观测数据的条件概率为:
$P(\pmb z_{j,k} \mid \pmb x_k,\pmb y_j) = N(h(\pmb y_j,\pmb x_k),\pmb Q_{k,j})$
考虑单次观测的最大似然估计，可以使用最小化负对数来求一个高斯分布的最大似然。
考虑高斯分布 $\sim \mathcal N(\mu,\sum)$ ,概率密度为
$\frac {1}{\sqrt{(2\pi)^N det(\sum)}} \exp\bigg(-\frac12(x-\mu)^T∑^{-1}(x-u)\bigg)$
两边取对数
$-\ln(P(x)) =\frac 12 \ln\bigg((2\pi)^N det(\sum) \bigg) + \frac 12 (x-\mu)^T ∑^{-1}(x-\mu)$
对数函数是单调递增的，对原函数求最大值即为对负对数求最小化。由于第一项与 $x$ 无关，可以略去。只需要最小化右侧的二次型项。代入$ \rm SLAM$观测模型，即相当于求
$\begin{aligned} (\pmb x_k,\pmb y_j)^* &= \arg \max \mathcal N(h(\pmb y_j,\pmb x_k),\pmb Q_{k,j})\\ &= \arg \min \bigg((\pmb z_{k,j}-h(\pmb x_k,\pmb y_j))^T \pmb Q_{k,j}^{-1}(\pmb z_{k,j}-h(\pmb x_k,\pmb y_j))\bigg) \end{aligned}$
该式等价于最小化噪声项（即误差）的一个二次型。这个二次型称为马哈拉诺比斯距离 $\rm Mahalanobis \ distance$ ,又称马氏距离。它也可以看成由 $\pmb Q_{k,j}^{-1}$ 加权之后的欧氏距离，这里 $\pmb Q_{k,j}^{-1}$ 也叫信息矩阵，即高斯分布协方差矩阵之逆。
现在考虑批量时刻的数据。通常假设各个时刻的输入和观测时相互独立的。因此可以对联合分布进行因式分解
$P(\pmb z,\pmb u\mid \pmb x,\pmb y) = \prod_k P(\pmb u_k \mid \pmb x_{k-1},\pmb x_k) \prod_{k,j} P(\pmb z_{k,j} \mid \pmb x_k,\pmb y_j)$
这说明可以独立的处理各个时刻的运动和观测。定义输入和观测数据与模型的误差为
$\begin{aligned} &\pmb e_{\pmb u,k} = \pmb x_k - f(\pmb x_{k-1},\pmb u_k)\\ &\pmb e_{\pmb z,j,k} = \pmb z_{k,j} - h(\pmb x_k,\pmb y_j) \end{aligned}$
最小化所有时刻估计值与真实读数之间的马氏距离，等价于求最大似然估计。负对数允许把成绩变成求和
$\min J(\pmb x,\pmb y) = \sum_{k} \pmb e_{\pmb u,k}^T \pmb R_{k}^{-1}\pmb e_{\pmb u,k} + \sum_{k}\sum_{j} \pmb e_{\pmb z,k,j}^T \pmb Q^{-1}_{k,j}\pmb e_{\pmb z,k,j}$
至此得到了一个最小二乘问题 $\rm Least\ Square\ Problem$ ，它的解就是状态的最大似然估计。由于噪声的存在，当我们把估计的轨迹与地图带入$ \rm SLAM$的运动、观测方程中时，并不会完美的成立。因此需要对状态的估计进行微调，使得整体的误差下降一点，最终达到一个极小值。这是一个典型的非线性优化过程。

非线性最小二乘

考虑一个最小二乘问题
$\min_{\pmb x} F(\pmb x) = \frac 12 \mid\mid f(\pmb x) \mid \mid _2^2$
其中， $\pmb x \in \mathbb R^n$ , $f$ 是任意标量非线性函数 $f(\pmb x):\mathbb R^n \rightarrow \mathbb R$ 。

如果 $f$ 为简单的线性函数，可通过求导得出最优解。但是有时候导函数可能形势复杂，使得方程不易求解。对于不方便直接求解的最小二乘问题，我们可以用迭代得到的方式，从一个初始值出发，不断地更新当前的优化变量，使目标函数下降。具体步骤如下：

给定某个初始值 $\pmb x_0$
对于第 $k$ 次迭代，寻找一个增量 $\Delta \pmb x_k$ ，使得 $\mid \mid f(x_k+ \Delta x_k)\mid\mid_2^2$ 达到极小值
若 $\Delta \pmb x_k$ 足够小，则停止
否则，令 $\pmb x_{k+1} = \pmb x_k + \Delta \pmb x_k$ ,返回第 $2$ 步

这让求解导函数为零的问题变成了一个不断寻找下降增量 $\Delta \pmb x_k$ 的问题。如何找到每次迭代点的增量，这是一个局部问题，我们只需要关心 $f$ 在迭代值处的局部性质而非全局性质。

一阶和二阶梯度法

考虑第 $k$ 次迭代，假设我们在 $\pmb x_k$ 处，想要寻找增量 $\Delta \pmb x_k$ ,那么最直观的方式是将目标函数在 $\pmb x_k$ 处进行泰勒展开
$F(\pmb x_k + \Delta \pmb x_k) \approx F(\pmb x_k) + \pmb J(\pmb x_k)^T \Delta \pmb x_k + \frac 12 \Delta \pmb x_k^T\pmb H(\pmb x_k) \Delta \pmb x_k$
其中 $\pmb J(\pmb x_k)$ 是 $\pmb F(\pmb x)$ 关于 $\pmb x$ 的一阶导数[也叫梯度、雅可比Jacobian矩阵]， $\pmb H$ 则是二阶导数[海塞矩阵Hessian]，它们都在 $\pmb x_k$ 处取值。我们可以选择保留泰勒展开的一阶或二阶项，那么对应的求解方法则称为一阶梯度或二阶梯度法。

一阶梯度法

$\Delta \pmb x^* = - \pmb J(\pmb x_k)$

取增量为反向的梯度，即可保证函数的下降，通常我们还要再指定一个步长。

二阶梯度法

$\Delta \pmb x^* = \arg \min \bigg( F(\pmb x) + \pmb J(\pmb x)^T \Delta \pmb x + \frac 12 \Delta \pmb x^T \pmb H \pmb \Delta x \bigg)$

求等式右侧关于 $\Delta \pmb x$ 的导数并令其为零，则
$\pmb J + \pmb H \Delta \pmb x = 0 \Longrightarrow \pmb H \Delta \pmb x = -\pmb J \tag{牛顿法}$

高斯牛顿法

高斯牛顿法是最优化算法中最简单的方法之一。它的思想是将 $f(\pmb x)$ 进行一阶的泰勒展开，不同于一阶梯度法对 $F(\pmb x)$ 进行分析。
$f(\pmb x+ \Delta \pmb x) \approx f(\pmb x) + \pmb J(\pmb x)^T \Delta \pmb x$
$\Delta \pmb x^* = \arg \min \frac12 \mid\mid f(\pmb x) + \pmb J(\pmb x)^T \Delta \pmb x \mid\mid^2$
将上式展开后对 $\Delta \pmb x$ 求导，并令其为零
$\pmb J(\pmb x) f(\pmb x)+ J^T(\pmb x) \Delta \pmb x =0$
$\pmb J(\pmb x) \pmb J^T(\pmb x) \Delta \pmb x = -\pmb J(\pmb x) f(\pmb x) \tag{增量方程}$
这个方程是关于变量 $\Delta \pmb x$ 的线性方程组，我们称其为增量方程，也称为高斯牛顿方程 $\rm Gauss-Newton \ equation$ 或正规方程 $\rm Normal \ equation$ 。令 $\pmb H(\pmb x) = J(\pmb x)J^T(\pmb x),\pmb g(\pmb x) = -\pmb J(\pmb x)f(\pmb x)$ ，则
$\pmb H \Delta \pmb x = \pmb g$
对比牛顿法，高斯牛顿法用 $\pmb J \pmb J^T$ 作为牛顿法中二阶Hessian矩阵的近似，从而省略了计算 $\pmb H$ 的过程。求解增量方程是整个优化问题的核心所在。
总结高斯牛顿法的算法步骤为

给定初始值 $\pmb x_0$
对于第 $k$ 次迭代，求出当前的雅可比矩阵 $\pmb J(\pmb x_k)$ 和误差 $f(\pmb x_k)$
求解增量方程 $\pmb H \Delta \pmb x_k = \pmb g$
若 $\Delta \pmb x_k$ 足够小，则停止。否则，令 $\pmb x_{k+1}=\pmb x_k+\Delta \pmb x_k$ ,否则返回第2步
有时候 $\pmb H$ 是病态的，这时用高斯牛顿法可能会导致局部近似不够准确。

列文伯格-马夸尔特方法

高斯牛顿法中采用的近似二阶泰勒展开只能在展开点附近有较好的近似效果，所以给 $\Delta \pmb x$ 添加一个范围，称为信赖区域 $\rm Trust \ Region$ 。这个范围定有了在什么情况下二阶近似是有效的，这类方法也称为信赖区域方法 $\rm Trust \ Region \ Method$ 。在信赖区域里，我们认为近似是有效的。
定义指标 $\rho$ 来刻画近似的好坏程度
$\rho = \frac{f(\pmb x+ \Delta \pmb x) - f(\pmb x)}{\pmb J(\pmb x)^T\Delta \pmb x}$
$\rho$ 的分子是实际函数下降的值，分母是近似模型下降的值。如果 $\rho$ 较小，说明时实际减小的值远小于近似见效的值，近似较差，则应该缩小近似范围，否则放大。
一个改良版的非线性优化步骤如下

给定初始值 $\pmb x_0$ ，以及初始优化半径 $\mu$
对于第 $k$ 次迭代，在高斯牛顿法的基础上加上信赖区域，求解
$\min_{\Delta \pmb x_k} \frac 12 \mid\mid f(\pmb x_k) + \pmb J(\pmb x_k)^T\Delta \pmb x_k \mid\mid^2,\rm{s.t.} \ \ \mid\mid\pmb D\Delta \pmb x_k\mid\mid^2 \leq \mu$
其中, $\mu$ 是信赖区域的半径， $\pmb D$ 为系数矩阵。
计算 $\rho$
若 $\rho > \frac34$ ,则设置$\mu=2\mu $
若 $\rho < \frac 14$ ,则设置 $\mu = 0.5\mu$
如果 $\rho$ 大于某阈值，则认为近似可行。令 $\pmb x_{k+1} = \pmb x_k +\Delta \pmb x_k$
判断算法是否收敛。如不收敛则返回第2步，否则结束。
对于第2步，这是一个带不等式约束的优化问题，用拉格朗日乘子构建拉格朗日函数
$\mathcal L(\Delta \pmb x_k,\lambda) = \frac 12 \mid\mid f(\pmb x_k)+\pmb J(\pmb x_k)^T\Delta \pmb x_k \mid\mid^2 + \frac{\lambda}{2}(\mid\mid \pmb D\Delta \pmb x_k \mid\mid^2 -\mu)$
对 $\Delta \pmb x$ 求导并令其为零
$(\pmb H + \lambda \pmb D^T\pmb D)\Delta \pmb x_k = \pmb g$
相对于高斯牛顿法，增量方程多了一个 $\lambda \pmb D^T\pmb D$ 。如果考虑它的简化形式 $D = E$ ,则
$(\pmb H + \lambda \pmb E) \Delta \pmb x_k = \pmb g$
当 $\lambda$ 较小时， $\pmb H$ 占主要地位，近似于高斯牛顿法。当 $\lambda$ 较大， $\lambda E$ 占主要地位，近似于一阶梯度下降法。

代码实现

研究问题

下面用不同方法进行曲线拟合，所研究的问题是一致的
考虑一条满足下列方程的曲线
$y = \exp(ax^2+bx+c)+w$
$a, b, c$ 是曲线的参数， $w$ 为高斯噪声，满足 $\sim (0,\sigma^2)$ 。
可以求解下面的最小二乘问题以估计曲线参数
$\min_{a,b,c} \frac 12 \sum_{i=1}^N \mid\mid y_i - \exp(ax_i^2+bx_i+c)\mid\mid^2$
定义误差为
$e_i = y_i - \exp(ax_i^2+bx_i+c)$
可以求出每个误差项对于状态变量的导数
$\begin{aligned} & \frac{\partial e_i}{\partial a} = -x_i^2 \exp(ax_i^2+bx_i+c)\\ & \frac{\partial e_i}{\partial b} = -x_i \exp(ax_i^2+bx_i+c)\\ & \frac{\partial e_i}{\partial c} = -\exp(ax_i^2+bx_i+c)\\ \end{aligned}$
于是 $\pmb J_i = [\frac{\partial e_i}{\partial a},\frac{\partial e_i}{\partial b},\frac{\partial e_i}{\partial c}]^T$ ,高斯牛顿法的增量为
$\bigg(\sum_{i=1}^{100}\pmb J_i \pmb J_i^T\bigg) \Delta \pmb x_k = \sum_{i=1}^{100} - \pmb J_i e_i$

注意这里的最小二乘法是求和形式的。事实上，这是最小二乘法的经典形式。当最优化目标函数是一个平方求和时，其对某个自变量的求导刚好是目标函数是单个平方和时的求和。所以，最小二乘法的目标函数是平方求和时，其导数矩阵直接把上面推导得矩阵求和即可。

手写高斯牛顿法

手写高斯牛顿法

使用Ceres进行曲线拟合

$\rm Ceres$ 是一个广泛使用的最小二乘问题求解库。 $\rm Ceres$ 求解的最小二乘问题最一般的形式如下
$\begin{aligned} &\min_x \frac 12 \sum_i \rho_i \bigg(\mid\mid f_i(x_{i1},\cdots,x_{in})\mid\mid^2 \bigg)\\ &{\rm s.t.} \ \ l_j \leq x_j \leq u_j \end{aligned}$
其中， $x_1,\cdots,x_n$ 为优化变量，又称参数块 $\rm Parameter \ blocks$ , $f_i$ 称为代价函数 $\rm Cost \ function$ ,也称为残差块 $\rm Residual \ blocks$ ,在$\rm $ $\rm SLAM$ 中也可以理解为误差项。 $l_j$ 和 $u_j$ 为第 $j$ 各优化变量的上限和下限。在简单情况下，可取 $l_j=-\infty,u_j = \infty$ 。此时，目标函数由许多平方项经过一个核函数 $\rho(\cdot)$ 之后求和组成。

使用步骤如下

定义每个参数块。参数块通常为平凡的向量，但是在 $\rm SLAM$ 里也可以定义成四元数、李代数这种特殊的结构。如果是向量，那么我们需要为每个参数块分配一个double数组来存储变量的值。
定义残差块的计算方式。残差块通常关联若干个参数块，对它们进行一些自定义的计算，然后返回残差值。 $\rm Ceres$ 对它们求平方和之后，作为目标函数的值。
残差块往往也需要定义雅可比的计算方式。在 $\rm Ceres$ 中，你可以使用它提供的"自动求导"功能，也可以手动指定雅可比的计算过程。如果要使用自动求导，那么残差块需要按照特定的写法书写：残差的计算过程应该是一个带模板的括号运算符。这一点我们通过例子来说明。
把所有的参数块和残差块加人 $\rm Ceres$ 定义的Problem对象中，调用Solve函数求解即可。求解之前，我们可以传入一些配置信息，例如迭代次数、终止条件等，也可以使用默认的配置。

使用Ceres进行曲线拟合

使用g2o进行曲线拟合

$\rm g2o$ 是一个基于图优化的库。为了了解某个优化变量 $x_j$ 存在于多少个误差项中，引入了图优化。图优化中图的顶点表示优化变量，边表示误差项。

将图像拟合问题抽象为图优化，只需要记住结点为优化变量，边为误差项即可。一般需要以下步骤

定义顶点和边的类型
构建图
选择优化算法
调用 $\rm g2o$ 进行优化，返回结果

在我们选择的研究问题中，只有一个结点为 $(a, b, c)$ ,有100个从该节点出发，指向该节点的数据。

首先从 $\rm g2o$ 派生除了用于图像拟合的图优化顶点和边，同时重写了重要的虚函数：

顶点的更新函数：oplusImpl。我们知道优化过程最重要的是增量 $\Delta \pmb x$ 的计算，而该函数处理的是 $\pmb x_{k+1} = \pmb x_k + \Delta \pmb x$ 的过程
顶点的重置函数： setToOriginImpl。这是平凡的，我们把估计值置零即可。
边的误差计算函数： computeError。该函数需要取出边所连接的顶点的当前估计值，根据曲线模型，与它的观测值进行比较。这和最小二乘问题中的误差模型是一致的。
边的雅可比计算函数：lnearizeOplus。这个函数里我们计算了每条边相对于顶点的雅可比。
存盘和读盘函数： read,write。由于我们并不想进行读/写操作，所以留空。