从零真正理解SLAM中的边缘化---------详细的理论细节推导

leeayu

已于 2024-08-01 13:10:06 修改

阅读量438

点赞数 7

分类专栏：状态估计文章标签： VIO 边缘化 VINS-MONO

于 2024-08-01 12:56:37 首次发布

本文链接：https://blog.csdn.net/qq_23225073/article/details/140839801

版权

状态估计专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

1 边缘化是什么
2 实际SLAM中的优化问题构建
3 边缘化（Marginalization）
Reference

1 边缘化是什么

回顾联合概率分布公式
$P (x, y) = P (x ∣ y) P (y) = P (y ∣ x) P (x)$

所谓边缘化就是从联合分布PDF计算其中一部分变量的PDF，如下面的公式描述
$\int P(x, y) dx = \int P(y|x)P(x) dx$
通俗点说我们想边缘化掉x，那么只需要对这个联合分布中的x变量进行积分即可。

这个公式是理想情况下边缘化的做法，实际情况中我们是先构建了一个离散化的优化问题，直接在优化问题中操作边缘化，接下来我们来阐述如何从这个理想的公式到实际边缘化工程中的做法。

2 实际SLAM中的优化问题构建

2.1 线性高斯系统优化问题的构建（参考状态估计这本书，本节只是简介使得文章前后保持连续性）

在这里插入图片描述

求解一个优化问题在机器人状态估计中一般有两种方式，

Bayesian Estimation：估计后验PDF的均值和方差
Map A Posteriori Estimation：估计后验PDF的模及其方差

无论使用那种方式去推导，都可以导出滤波和优化两种具体的问题求解方法。我们使用MAP方式来导出，最后使用优化算法来求解问题。

⾸先，⽤贝叶斯公式重写 MAP 估计
$\hat{\boldsymbol{x}}=\arg \max _{\boldsymbol{x}} p(\boldsymbol{x} \mid \boldsymbol{v}, \boldsymbol{y})=\arg \max _{\boldsymbol{x}} \frac{p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{v}) p(\boldsymbol{x} \mid \boldsymbol{v})}{p(\boldsymbol{y} \mid \boldsymbol{v})}=\arg \max _{\boldsymbol{x}} p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x} \mid \boldsymbol{v})$

接下来假设：

运动噪声 $\boldsymbol{w}_k$ 和观测噪声 $\boldsymbol{n}_k$ 对于所有时刻都是彼此无关的

这样可以利用贝叶斯公式进行因子分解
$p(\boldsymbol{y} \mid \boldsymbol{x})=\prod_{k=0}^K p\left(\boldsymbol{y}_k \mid \boldsymbol{x}_k\right)$
$p(\boldsymbol{x} \mid \boldsymbol{v})=p\left(\boldsymbol{x}_0 \mid \check{\boldsymbol{x}}_0\right) \prod_{k=1}^K p\left(\boldsymbol{x}_k \mid \boldsymbol{x}_{k-1}, \boldsymbol{v}_k\right)$

在线性高斯系统中，展开PDF。
$\begin{aligned} p\left(\boldsymbol{x}_0 \mid \check{\boldsymbol{x}}_0\right)= & \frac{1}{\sqrt{(2 \pi)^N \operatorname{det} \check{\boldsymbol{P}}_0}} \\ p\left(\boldsymbol{x}_k \mid \boldsymbol{x}_{k-1}, \boldsymbol{v}_k\right)= & \frac{1 \exp \left(-\frac{1}{2}\left(\boldsymbol{x}_0-\check{\boldsymbol{x}}_0\right)^{\mathrm{T}} \check{\boldsymbol{P}}_0^{-1}\left(\boldsymbol{x}_0-\check{\boldsymbol{x}}_0\right)\right)}{\sqrt{(2 \pi)^N \operatorname{det} \boldsymbol{Q}_k}} \\ p\left(\boldsymbol{y}_k \mid \boldsymbol{x}_k\right)= & \frac{1}{\sqrt{(2 \pi)^M \operatorname{det} \boldsymbol{R}_k}\left(-\frac{1}{2}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right)^{\mathrm{T}} \boldsymbol{Q}_k^{-1}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right)\right)} \\ & \times \exp \left(-\frac{1}{2}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right)^{\mathrm{T}} \boldsymbol{R}_k^{-1}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right)\right) \end{aligned}$

对两侧取负对数，下面是推导过程

$\ln (p(\boldsymbol{y} \mid \boldsymbol{x}) p(\boldsymbol{x} \mid \boldsymbol{v}))=\ln p\left(\boldsymbol{x}_0 \mid \check{\boldsymbol{x}}_0\right)+\sum_{k=1}^K \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{x}_{k-1}, \boldsymbol{v}_k\right)+\sum_{k=0}^K \ln p\left(\boldsymbol{y}_k \mid \boldsymbol{x}_k\right)$

$\begin{aligned} & \ln p\left(\boldsymbol{x}_0 \mid \check{\boldsymbol{x}}_0\right)=-\frac{1}{2}\left(\boldsymbol{x}_0-\check{\boldsymbol{x}}_0\right)^{\mathrm{T}} \check{\boldsymbol{P}}_0^{-1}\left(\boldsymbol{x}-\check{\boldsymbol{x}}_0\right) \\ & -\underbrace{\frac{1}{2} \ln \left((2 \pi)^N \operatorname{det} \check{\boldsymbol{P}}_0\right)}_{\text {与 } \boldsymbol{x} \text { 无关 }} \\ & \ln p\left(\boldsymbol{x}_k \mid \boldsymbol{x}_{k-1}, \boldsymbol{v}_k\right)=-\frac{1}{2}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right)^{\mathrm{T}} \boldsymbol{Q}_k^{-1}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right) \\ & -\underbrace{\frac{1}{2} \ln \left((2 \pi)^N \operatorname{det}\left(\boldsymbol{Q}_k\right)\right)}_{\text {与 } \boldsymbol{x} \text { 无关 }} \\ & \ln p\left(\boldsymbol{y}_k \mid \boldsymbol{x}_k\right)=-\frac{1}{2}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right)^{\mathrm{T}} \boldsymbol{R}_k^{-1}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right) \\ & -\underbrace{\frac{1}{2} \ln \left((2 \pi)^M \operatorname{det} \boldsymbol{R}_k\right)}_{\text {与 } \boldsymbol{x} \text { 无关 }} \\ & \end{aligned}$

上面推导中出现了⼀些与 x ⽆关的项，直接忽略掉，因为不包含我们的优化变量。

定义下面的变量：
$\begin{aligned} & J_{v, k}(\boldsymbol{x})= \begin{cases}\frac{1}{2}\left(\boldsymbol{x}_0-\check{\boldsymbol{x}}_0\right)^{\mathrm{T}} \check{\boldsymbol{P}}_0^{-1}\left(\boldsymbol{x}_0-\check{\boldsymbol{x}}_0\right), & k=0 \\ \frac{1}{2}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right)^{\mathrm{T}} \boldsymbol{Q}_k^{-1}\left(\boldsymbol{x}_k-\boldsymbol{A}_{k-1} \boldsymbol{x}_{k-1}-\boldsymbol{v}_k\right), & k=1 \ldots K\end{cases} \\ & J_{y, k}(\boldsymbol{x})=\frac{1}{2}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right)^{\mathrm{T}} \boldsymbol{R}_k^{-1}\left(\boldsymbol{y}_k-\boldsymbol{C}_k \boldsymbol{x}_k\right), \quad k=0 \ldots K \end{aligned}$

这些都是马氏距离（Mahalanobis Distance），是个优雅的二次型形式。
定义我们的目标函数
$J(\boldsymbol{x})=\sum_{k=0}^K\left(J_{v, k}(\boldsymbol{x})+J_{y, k}(\boldsymbol{x})\right)$

问题的最优解为
$\hat{\boldsymbol{x}}=\arg \min _{\boldsymbol{x}} J(\boldsymbol{x})$

这个问题是⼀个无约束的优化问题（unconstrained optimization problem），对于状态变量 x 本⾝并没有任何约束

2.2 非线性非高斯系统（Non Linear Non Gaussian，NLNG）优化问题构建

考虑非线性系统的运动和观测模型
$\begin{aligned} & \boldsymbol{x}_k=\boldsymbol{f}\left(\boldsymbol{x}_{k-1}, \boldsymbol{v}_k, \boldsymbol{w}_k\right), \quad k=1 \ldots K \\ & \boldsymbol{y}_k=\boldsymbol{g}\left(\boldsymbol{x}_k, \boldsymbol{n}_k\right), \quad k=0 \ldots K \end{aligned}$

构建NLNG系统的优化问题，考虑线性化方式（简单提一下：如果用滤波，你也可以用采样的方式，比如粒子滤波，sigma point kalman filter）：

$\begin{aligned} &\begin{aligned} \boldsymbol{f}\left(\boldsymbol{x}_{k-1}, \boldsymbol{v}_k, \boldsymbol{w}_k\right) & \approx \check{\boldsymbol{x}}_k+\boldsymbol{F}_{k-1}\left(\boldsymbol{x}_{k-1}-\hat{\boldsymbol{x}}_{k-1}\right)+\boldsymbol{w}_k^{\prime} \\ \boldsymbol{g}\left(\boldsymbol{x}_k, \boldsymbol{n}_k\right) & \approx \check{\boldsymbol{y}}_k+\boldsymbol{G}_k\left(\boldsymbol{x}_k-\check{\boldsymbol{x}}_k\right)+\boldsymbol{n}_k^{\prime} \end{aligned}\\ &\begin{gathered} \check{\boldsymbol{x}}_k=\boldsymbol{f}\left(\hat{\boldsymbol{x}}_{k-1}, \boldsymbol{v}_k, \mathbf{0}\right), \quad \boldsymbol{F}_{k-1}=\left.\frac{\partial \boldsymbol{f}\left(\boldsymbol{x}_{k-1}, \boldsymbol{v}_k, \boldsymbol{w}_k\right)}{\partial \boldsymbol{x}_{k-1}}\right|_{\hat{\boldsymbol{x}}_{k-1}, \boldsymbol{v}_k, \mathrm{C}} \\ \boldsymbol{w}_k^{\prime}=\left.\frac{\partial \boldsymbol{f}\left(\boldsymbol{x}_{k-1}, \boldsymbol{v}_k, \boldsymbol{w}_k\right)}{\partial \boldsymbol{w}_k}\right|_{\hat{\boldsymbol{x}}_{k-1}, \boldsymbol{v}_k, \mathbf{0}} \boldsymbol{w}_k \end{gathered}\\ &\begin{gathered} \check{\boldsymbol{y}}_k=\boldsymbol{g}\left(\check{\boldsymbol{x}}_k, \mathbf{0}\right), \quad \boldsymbol{G}_k=\left.\frac{\partial \boldsymbol{g}\left(\boldsymbol{x}_k, \boldsymbol{n}_k\right)}{\partial \boldsymbol{x}_k}\right|_{\check{\boldsymbol{x}}_k, \mathbf{0}} \\ \boldsymbol{n}_k^{\prime}=\left.\frac{\partial \boldsymbol{g}\left(\boldsymbol{x}_k, \boldsymbol{n}_k\right)}{\partial \boldsymbol{n}_k}\right|_{\check{\boldsymbol{x}}_k, \mathbf{0}} \boldsymbol{n}_k \end{gathered} \end{aligned}$

仿照线性高斯系统的MAP建模方式，NLNG系统优化问题建模如下
$\boldsymbol{x}=\left[\begin{array}{c} \boldsymbol{x}_0 \\ \boldsymbol{x}_1 \\ \vdots \\ \boldsymbol{x}_K \end{array}\right]$

定义残差
$\begin{aligned} & \boldsymbol{r}_{v, k}(\boldsymbol{x})= \begin{cases}\check{\boldsymbol{x}}_0-\boldsymbol{x}_0 & k=0 \\ \boldsymbol{f}\left(\boldsymbol{x}_{k-1}, \boldsymbol{v}_k, \mathbf{0}\right)-\boldsymbol{x}_k & k=1 \ldots K\end{cases} \\ & \boldsymbol{r}_{y, k}(\boldsymbol{x})=\boldsymbol{y}_k-\boldsymbol{g}\left(\boldsymbol{x}_k, \mathbf{0}\right), \quad k=0 \ldots K \end{aligned}$

目标函数为
$\begin{aligned} J_{v, k}(\boldsymbol{x}) & =\frac{1}{2} \boldsymbol{r}_{v, k}(\boldsymbol{x})^{\mathrm{T}} \boldsymbol{W}_{v, k}^{-1} \boldsymbol{r}_{v, k}(\boldsymbol{x}) \\ J_{y, k}(\boldsymbol{x}) & =\frac{1}{2} \boldsymbol{r}_{y, k}(\boldsymbol{x})^{\mathrm{T}} \boldsymbol{W}_{y, k}^{-1} \boldsymbol{r}_{y, k}(\boldsymbol{x}) \\ J(\boldsymbol{x}) & =\sum_{k=0}^K\left(J_{v, k}(\boldsymbol{x})+J_{y, k}(\boldsymbol{x})\right) \end{aligned}$

2.3 NLNG问题的Batch形式（实际SLAM优化多帧pose和多路标点的情况）

将上述目标函数写成矩阵形式
$\begin{gathered} \boldsymbol{r}(\boldsymbol{x})=\left[\begin{array}{c} \boldsymbol{r}_v(\boldsymbol{x}) \\ \boldsymbol{r}_y(\boldsymbol{x}) \end{array}\right], \quad \boldsymbol{r}_v(\boldsymbol{x})=\left[\begin{array}{c} \boldsymbol{r}_{v, 0}(\boldsymbol{x}) \\ \vdots \\ \boldsymbol{r}_{v, K}(\boldsymbol{x}) \end{array}\right], \quad \boldsymbol{r}_y(\boldsymbol{x})=\left[\begin{array}{c} \boldsymbol{r}_{y, 0}(\boldsymbol{x}) \\ \vdots \\ \boldsymbol{r}_{y, K}(\boldsymbol{x}) \end{array}\right] \\ \boldsymbol{W}=\operatorname{diag}\left(\boldsymbol{W}_v, \boldsymbol{W}_y\right) \\ \boldsymbol{W}_v=\operatorname{diag}\left(\boldsymbol{W}_{v, 0}, \ldots, \boldsymbol{W}_{v, K}\right), \quad \boldsymbol{W}_y=\operatorname{diag}\left(\boldsymbol{W}_{y, 0}, \ldots, \boldsymbol{W}_{y, K}\right) \end{gathered}$

$J(\boldsymbol{x})=\frac{1}{2} \boldsymbol{r}(\boldsymbol{x})^{\mathrm{T}} \boldsymbol{W}^{-1} \boldsymbol{r}(\boldsymbol{x})$

在实际问题求解中，我们会把噪声项和误差项进行合并写成

$\boldsymbol{u}(\boldsymbol{x})=\boldsymbol{L} e(\boldsymbol{x})$
$J(\boldsymbol{x})=\frac{1}{2} \boldsymbol{u}(\boldsymbol{x})^{\mathrm{T}} \boldsymbol{u}(\boldsymbol{x})$

这可以用Cholesky分解得到
$\boldsymbol{L}^{\mathrm{T}} \boldsymbol{L}=\boldsymbol{W}^{-1}$

实际问题中我们都不需要用Cholesky分解，用这个W是一个对角阵，只需要针对对角线元素求sqrt即可。

2.4 使用高斯牛顿法求解

对 $u (x)$ 进行线性化（泰勒展开）
$\boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}+\Delta \boldsymbol{x}\right) \approx \boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}\right)+\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right) \Delta \boldsymbol{x}$

将其代⼊目标函数 J 中
$J\left(\boldsymbol{x}_{\mathrm{op}}+\Delta \boldsymbol{x}\right) \approx \frac{1}{2}\left(\boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}\right)+\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right) \Delta \boldsymbol{x}\right)^{\mathrm{T}}\left(\boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}\right)+\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right) \Delta \boldsymbol{x}\right)$

针对 $\Delta_x$ 最⼩化
$\begin{array}{r} \frac{\partial J\left(\boldsymbol{x}_{\mathrm{op}}+\Delta \boldsymbol{x}\right)}{\partial \Delta \boldsymbol{x}}=\left(\boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}\right)+\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right) \Delta \boldsymbol{x}^*\right)^{\mathrm{T}}\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right)=\mathbf{0} \\ \Rightarrow\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right)^{\mathrm{T}}\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right) \Delta \boldsymbol{x}^*=-\left(\left.\frac{\partial \boldsymbol{u}(\boldsymbol{x})}{\partial \boldsymbol{x}}\right|_{\boldsymbol{x}_{\mathrm{op}}}\right)^{\mathrm{T}} \boldsymbol{u}\left(\boldsymbol{x}_{\mathrm{op}}\right) \end{array}$

至此可以求解出 $\Delta_x$ ，然后 $\hat{x}_{k+1} = \hat{x}_k + \Delta_x$ ，完成了一次迭代优化，持续迭代到 $\Delta_x$ 足够小完成优化问题求解。

2.5 考虑一个小的优化问题：仅包含观测模型

$X^{M A P}=\underset{X}{\operatorname{argmin}} \sum_i\left\|h_i\left(X_i\right)-z_i\right\|_{\Sigma_i}^2$
对观测模型进行线性化
$h_i\left(X_i\right)=h_i\left(X_i^0+\Delta_i\right) \approx h_i\left(X_i^0\right)+J_i \Delta_i$
$\left.J_i \triangleq \frac{\partial h_i\left(X_i\right)}{\partial X_i}\right|_{X_i^0}$
其中 $\Delta_i \triangleq X_i-X_i^0$ 就是我们的状态更新方程
带入上式

$\begin{aligned} \Delta^* & =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|h_i\left(X_i^0\right)+J_i \Delta_i-z_i\right\|_{\Sigma_i}^2 \\ & =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_i \Delta_i-\left\{z_i-h_i\left(X_i^0\right)\right\}\right\|_{\Sigma_i}^2 \\ & =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_i \Delta_i- r_i \right\|_{\Sigma_i}^2 \end{aligned}$
其中 $J_i$ 称为Jacobian，
$r_i = \left\{z_i-h_i\left(X_i^0\right)\right\}$ 称为残差
我们把观测误差的协方差矩阵合并到 $J_i, r_i$ 中去，变成一个完美的二次型形式
$\begin{aligned} J_i & =\Sigma_i^{-1 / 2} J_i \\ r_i & =\Sigma_i^{-1 / 2}\left(z_i-h_i\left(X_i^0\right)\right) \end{aligned}$

上面的公式之所以成立，是因为
$\|r\|_{\Sigma}^2 \triangleq r^{\top} \Sigma^{-1} r=\left(\Sigma^{-1 / 2} r\right)^{\top}\left(\Sigma^{-1 / 2} r\right)=\left\|\Sigma^{-1 / 2} r\right\|_2^2$

这里我们没有对jacobian和residual重新赋值一个新的名字，是为了方便。 因为实际工程中比如使用ceres构建factor的时候，会在factor evaluate函数中直接把信息矩阵（测量噪声）合并到jacobian和residual中。如下图

  residual = sqrt_info * residual;
  jacobian_pose_j.leftCols<6>() = sqrt_info * jaco_j;

所以最终的优化目标函数为
$\begin{aligned} \Delta^* & =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_i \Delta_i- r_i \right\| \end{aligned}$

3 边缘化（Marginalization）

3.1 边缘化想做什么事情

定义 $\left[\begin{array}{c} x_{m} \\ x_{n} \end{array}\right]$

在滑动窗口算法中，经历完以次优化之后，我们希望把 $x_{m}$ 从优化问题中移除，进而限制优化问题规模的增长，只保留 $x_{n}$ 。

如果直接把 $x_m$ 相关的变量和协方差直接移除，会导致 $x_m$ 对系统的约束直接就丢掉了，那么我们能不能丢掉 $x_m$ 的同时，保留 $x_m$ 对系统的约束呢？

需要先弄明白所谓对系统的约束是什么？

2.5 中我们考了一个简单的优化问题，其最终的目标函数为
$\begin{aligned} \Delta^* & =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_i \Delta_i- r_i \right\| \end{aligned}$
应用高斯牛顿方法，这个优化问题实际上是求解
$J^TJ\Delta = J^Tr$

其中 $J, r$ 是 $J_i, r_i$ 拼接成的大型稀疏矩阵

我们系统中不同变量之间的约束就是 $J^TJ$ 这个矩阵中的那些不为0的元素。

令 $A = JJ^T, b = J^Tr$ ，可以写成
$A\Delta = b$

至此我们知道了我们希望边缘化做什么事情：

构建 $A\Delta = b$ 方程
将待marg的变量排列到矩阵A的最左侧，残差b的最上方
对矩阵A执行marg操作，同步对b进行修改，得到 $A_n\Delta_n = B_n$
从 $A_n, B_n$ 中恢复 $J_n, r_n$ 构建 $J_n^TJ_n \Delta_n = J_n^Tr_n$ 求解问题
进而有 $J_n, r_n$ 恢复子jacobian和子residual $J_{ni}, r_{ni}$
最终得到边缘化之后的先验因子： $\Delta^* =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_{ni} \Delta_{ni}- r_{ni} \right\|$

3.2 边缘化过程详细步骤（以VINS-MONO为例）

第一步：构建 $A\Delta = b$ 方程

在VINS-MONO中构建这个方程的过程就是 ThreadsConstructA 函数。
矩阵A 可视化如下
在这里插入图片描述

第二步：将待marg的变量排列到矩阵A的最左侧，残差b的最上方

$\left[\begin{array}{cc} \boldsymbol{\Sigma}_{m m} & \boldsymbol{\Sigma}_{m n} \\ \boldsymbol{\Sigma}_{n m} & \boldsymbol{\Sigma}_{n n} \end{array}\right] \\ b = \left[\begin{array}{cc} \boldsymbol{b_m} \\ \boldsymbol{b_n} \end{array}\right]$
在这里插入图片描述

第三步：对矩阵A执行marg操作，同步对b进行修改，得到 $A_n\Delta_n = B_n$

代码对应于marginalize()函数

marg操作，本质就是通过矩阵变换来消除掉 $x_m$ 变量，过程如下
对矩阵A执行LDU分解（同理如果想边缘化掉 $x_n$ ，就执行UDL分解），

UDL分解
$\left[\begin{array}{cc} \boldsymbol{\Sigma}_{m m} & \boldsymbol{\Sigma}_{m n} \\ \boldsymbol{\Sigma}_{n m} & \boldsymbol{\Sigma}_{n n} \end{array}\right]=\left[\begin{array}{cc} \mathbf{1} & \boldsymbol{\Sigma}_{m n} \boldsymbol{\Sigma}_{n n}^{-1} \\ \mathbf{0} & \mathbf{1} \end{array}\right]\left[\begin{array}{cc} \boldsymbol{\Sigma}_{m m}-\boldsymbol{\Sigma}_{m n} \boldsymbol{\Sigma}_{n n}^{-1} \boldsymbol{\Sigma}_{n m} & \mathbf{0} \\ 0 & \boldsymbol{\Sigma}_{n n} \end{array}\right]\left[\begin{array}{cc} \mathbf{1} & \mathbf{0} \\ \boldsymbol{\Sigma}_{n n}^{-1} \boldsymbol{\Sigma}_{n m} & \mathbf{1} \end{array}\right]$

LDU分解
$\left[\begin{array}{cc} \boldsymbol{\Sigma}_{m m} & \boldsymbol{\Sigma}_{m n} \\ \boldsymbol{\Sigma}_{n m} & \boldsymbol{\Sigma}_{n n} \end{array}\right] =\left[\begin{array}{cc} \mathbf{1} & \mathbf{0}\\ \boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} & \mathbf{1} \end{array}\right] \left[\begin{array}{cc} \boldsymbol{\Sigma}_{m m} & \mathbf{0} \\ 0 & \boldsymbol{\Sigma}_{n n}-\boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} \boldsymbol{\Sigma}_{m n} \end{array}\right] \left[\begin{array}{cc} \mathbf{1} & \boldsymbol{\Sigma}_{m m}^{-1} \boldsymbol{\Sigma}_{m n}\\ \mathbf{0} & \mathbf{1} \end{array}\right]$

然后方程两边同时乘以
$L^{-1} = \left[\begin{array}{cc} \mathbf{1} & \mathbf{0}\\ -\boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} & \mathbf{1} \end{array}\right]$

最后化简

最终得到
$\left(\boldsymbol{\Sigma}_{n n}-\boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} \boldsymbol{\Sigma}_{m n} \right)\Delta_n = b_n - \boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} b_m$

那么 $A_n = \left(\boldsymbol{\Sigma}_{n n}-\boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} \boldsymbol{\Sigma}_{m n} \right)$
$B_n = b_n - \boldsymbol{\Sigma}_{n m} \boldsymbol{\Sigma}_{m m}^{-1} b_m$

第四步：从 $A_n, B_n$ 中恢复 $J_n, r_n$ 构建 $J_n^TJ_n \Delta_n = J_n^Tr_n$ 求解问题

最简单的可以对 $A_n$ 直接做cholesky分解， $A_n = J_n^TJ_n$
VINS MONO中使用了特征值分解
$A_n = VSV^T \\ = V S^{\frac{1}{2}} S^{\frac{1}{2}} V^T \\ = (S^{\frac{1}{2}} V^T)^{T} S^{\frac{1}{2}} V^T$

因此 $J_n = S^{\frac{1}{2}} V^T$
$J_n^T = V S^{\frac{1}{2}}$
而 $J^T r_n = B_n$ ,所以
$r_n = {J^T}^{-1} B_n \\ = (V S^{\frac{1}{2}})^{-1} B_n \\ = S^{-\frac{1}{2}} V^{-1} B_n \\ = S^{-\frac{1}{2}} V^T B_n$

第五步：进而有 $J_n, r_n$ 恢复子jacobian和子residual $J_{ni}, r_{ni}$

这一步实际中并没有拆出来，而是直接在第六步中批量计算了，因为所有的优化子factor最后还是汇聚成一个大矩阵，现在我们已经有了这个矩阵，自然不需要再重复操作了。
这个主要是展示构建先验项每一个小factor的组成

第六步：最终得到边缘化之后的先验因子： $\Delta^* =\underset{\Delta}{\operatorname{argmin}} \sum_i\left\|J_{ni} \Delta_{ni}- r_{ni} \right\|$

bool MarginalizationFactor::Evaluate(double const *const *parameters,
                                     double *residuals,
                                     double **jacobians) const {