DSO 中的Windowed Optimization

最新推荐文章于 2022-02-24 18:40:50 发布

原创最新推荐文章于 2022-02-24 18:40:50 发布 · 2.5w 阅读

113 ·

CC 4.0 BY-SA版权

文章标签：

#DSO

算法推导系列专栏收录该内容

28 篇文章

订阅专栏

DSO中除了完善直接法估计位姿的误差模型外(加入了仿射亮度变换，光度标定，depth优化)，另一个核心就是像okvis一样使用sliding window来优化位姿，Engel也专门用了一节来介绍它。sliding window 就像c++中的队列，队首进来一个新人，队尾出去一个老人，它更像王朝中武将的新老交替，老将解甲归田，新人受window大王的重用，然而安抚老将不得当，会使得SLAM王朝土崩瓦解。对于初次接触sliding window的初学者来说，window大王安抚老将，振兴SLAM王朝的三件法宝“First Estimate Jacobians”，“Marginalization”，“Schur complement”实在让人有点摸不清头脑。原谅我的口水话，接下来我将用尽量直观简洁的方式进行描述。

在此之前，泡泡群里王京和张腾在知乎写过First Estimate Jacobians的回答，范帝楷也在《OKVIS的理论推导(下)》中对marginalization进行了描述，这些都可以在泡泡历史推文中找到，我也写过一篇《SLAM中的marginalization 和 Schur complement》的博客。虽然资料已经很全了，这里还是想结合DSO[1]，以及另一篇文献[2]对windowed optimization涉及到的知识点进行一个全面的讲解。

本文将包括如下三个方面：
1. 为什么要使用sliding window ?
2. 什么是sliding window？ Marginalization, Schur Complement, First Estimate Jacobians
3. DSO中是如何使用windowed optimization的？

为什么要使用sliding window？

在基于图优化的SLAM技术中，无论是pose graph还是bundle adjustment都是通过最小化损失函数来达到优化位姿和地图的目的。然而，当待优化的位姿或特征点坐标增多时，优化过程的计算量也随着增大。因此不能无限制的添加待优化的变量，而是使用滑动窗口技术来限制计算量在一定范围。比如，一开始有三个关键帧 $kf_1,kf_2,kf_3$ 在窗口里，经过时间t，第四个关键帧 $kf_4$ 加入优化,此时我们需要去掉 $kf_1$ ，只对关键帧 $kf_2,kf_3,kf_4$ 进行优化。这样就始终保持待优化变量的个数，而固定了计算量。在上面的过程中，新的关键帧到来时，我们直接丢弃了关键帧1和关键帧2,3之间的约束，直接只用新的关键帧4和2,3构建的约束来对帧2,3,4的位姿进行新的优化，因此一个很自然的问题是，优化后的 $kf_2,kf_3$ 的位姿和原来 $kf_1$ 的约束肯定就被破坏了，原来 $kf_1$ 的一些约束信息就被损失了。那么，我们如何做到即使用滑动窗口固定计算量又充分保留信息呢？因此下面我们要对sliding window进行一个彻底的分析。额，感觉有点水深，像一个坑，别急，喝口水，后面不是一个坑是一个湖在等你。

sliding window技术

在这部分，我们从基本的graph based slam出发，逐步分析当新的优化变量加入时，如何优雅的去掉旧变量，在固定计算量的同时又保留信息并且不破坏系统的一致性。
我们知道图优化SLAM问题中两个顶点之间的边有如下的形式：

z i j = h i j (x i, x j) + n i j

$\mathbf{z}_{ij} = \mathbf{h}_{ij}(\mathbf{x}_i,\mathbf{x}_j)+\mathbf{n}_{ij}$ 公式中

xi,xj $\mathbf{x}_i,\mathbf{x}_j$ 表示图优化的顶点，比如相机位姿或三维坐标点，

zij $\mathbf{z}_{ij}$ 表示两个顶点之间相对关系的测量值。

nij $\mathbf{n}_{ij}$ 是一个零均值的测量高斯噪声

nij∼N(0,Λ−1ij) $\mathbf{n}_{ij}\sim \mathcal{N}(0,\Lambda^{-1}_{ij})$ ，我们通过最大似然估计来优化变量：

x^= argmax x p (z | x) = argmax x \prod p (z i j | x i, x j)

$\mathbf{\hat{x}}=\underset{\mathbf{x}}{\operatorname{argmax}}p(\mathbf{z}|\mathbf{x})=\underset{\mathbf{x}}{\operatorname{argmax}}\prod p(\mathbf{z}_{ij}|\mathbf{x}_i,\mathbf{x}_j)$ 由于服从高斯分布，所以上述问题近似于求解下面的最小二乘问题：

x^= argmin x \sum | | z i j - h i j (x i, x j) | | 2 Λ i j (1)

$\hat{\mathbf{x}} = \underset{\mathbf{x}}{\operatorname{argmin}}\sum{||\mathbf{z}_{ij} - \mathbf{h}_{ij}(\mathbf{x}_i,\mathbf{x}_j)||}^2_{\Lambda_{ij} } \quad\quad (1)$ 由于

hij() $\mathbf{h_{ij}}()$ 非线性，上面的方程我们需要对

hij() $\mathbf{h_{ij}}()$ 进行泰勒展开，然后使用Gauss-Newton迭代法来求解，在第k次迭代中，能够通过求解下面方程得到迭代增量

δx $\delta \mathbf{x}$ ：

δ x = argmin δ x \sum | | z i j - h i j (x^(k) i, x^(k) j) - J (k) i j δ x | | 2 Λ i j

$\delta \mathbf{x}=\underset{\delta\mathbf{x}}{\operatorname{argmin}}\sum||\mathbf{z}_{ij}-\mathbf{h}_{ij}(\mathbf{\hat{x}}_i^{(k)}, \mathbf{\hat{x}}_j^{(k)}) -\mathbf{J}_{ij}^{(k)}\delta\mathbf{x}||^2_{\Lambda_{ij}}$ 其中

J(k)ij=∂hij∂x∣x^(k) $\mathbf{J}_{ij}^{(k)}=\frac{\partial \mathbf{h}_ij}{\partial\mathbf{x}}\mid_{\mathbf{\hat{x}}^{(k)}}$ 表示在当前状态(迭代k-1次后)时的雅克比,那么k+1时刻的状态为

x(k+1)=x(k)+δx(k) $\mathbf{x}^{(k+1)}=\mathbf{x}^{(k)}+\delta\mathbf{x}^{(k)}$ ，重复这个迭代过程直到收敛。在上面这个最小二乘问题中，随着加入的变量

xi $\mathbf{x}_{i}$ 越来越多，计算量将越来越大，因此我们需要去掉一些变量。这就用到了接下来提到的marginalization技术。

Marginalization和Schur Complement

假设要marginalize掉的变量为 $\mathbf{x}_m$ , 和这些待丢弃变量有约束关系的变量用 $\mathbf{x}_b$ 表示，窗口中其他变量为 $\mathbf{x}_r$ ，即 $\mathbf{x}=[\mathbf{x}_m,\mathbf{x}_b,\mathbf{x}_r]^T$ 。相应的测量值为 $\mathbf{z}=\left \{ \mathbf{z}_b,\mathbf{z}_r \right \}=\left \{ \mathbf{z}_m,\mathbf{z}_c,\mathbf{z}_r \right \}$ ，其中 $\mathbf{z}_b=\left \{ \mathbf{z}_m,\mathbf{z}_c \right \}$ 。为了有助于理解，看下图所示

假设窗口中有

x0,x1,x2,x3,x4 $\mathbf{x}_0,\mathbf{x}_1,\mathbf{x}_2,\mathbf{x}_3,\mathbf{x}_4$ 五个状态，需要marg掉

x1 $\mathbf{x}_1$ ，而

x0,x2,x3 $\mathbf{x}_0,\mathbf{x}_2,\mathbf{x}_3$ 和

x1 $\mathbf{x}_1$ 有约束关系。因此对应之前我们定义好的变量有

xm=x1,xb=[x0,x2,x3]T,xr=x4. $\mathbf{x}_m=\mathbf{x}_1, \mathbf{x}_b=[\mathbf{x}_0,\mathbf{x}_2,\mathbf{x}_3]^T,\mathbf{x}_r=\mathbf{x}_4.$ ，相应的约束为

zm={z01,z12,z13},zc={z0,z03,z23},zr={z04,z34} $\mathbf{z}_m=\left\{ \mathbf{z}_{01},\mathbf{z}_{12},\mathbf{z}_{13}\right\},\mathbf{z}_c=\left\{ \mathbf{z}_{0},\mathbf{z}_{03},\mathbf{z}_{23}\right\},\mathbf{z}_r=\left\{ \mathbf{z}_{04},\mathbf{z}_{34}\right\}$ 。

现在，需要丢掉变量 $\mathbf{x}_m$ ，而去优化 $\mathbf{x}_b,\mathbf{x}_r$ 。为了不丢失信息，正确的做法是把 $\mathbf{x}_m,\mathbf{x}_b$ 之间的约束 $\mathbf{z}_m$ 封存成状态 $\mathbf{x}_b$ 的先验信息，简单地说就是告诉 $\mathbf{x}_r$ ，我和 $\mathbf{x}_b$ 之前是有约定的，你不能只按照你的约定胡来。封存先验信息就是如下公式，在 $\mathbf{z}_m$ 条件下 $\mathbf{x}_b$ 的概率：

p (x b | z m) = \int x m p (x b, x m | z m) d x m \approx N (x^b, Λ - 1 t)

$p(\mathbf{x}_b|\mathbf{z}_m)=\int_{\mathbf{x}_{m}}{p(\mathbf{x}_b,\mathbf{x}_m | \mathbf{z}_m)d\mathbf{x}_m}\approx \mathcal{N}(\hat{\mathbf{x}}_b, \mathbf{\Lambda}^{-1}_t)$ 上式就是把

xm,xb $\mathbf{x}_m,\mathbf{x}_b$ 之间的约束封存成了

xb∼N(x^b,Λ−1t) ${\mathbf{x}}_b\sim \mathcal{N}(\hat{\mathbf{x}}_b, \mathbf{\Lambda}^{-1}_t)$ 先验信息。带着先验信息去优化

xb,xr $\mathbf{x}_b,\mathbf{x}_r$ 就不会损失信息了。

为了求解 $(\hat{\mathbf{x}}_b, \mathbf{\Lambda}^{-1}_t)$ ，我们只需要求解

argmin x b, x m \sum (i, j) \in z m 1 2 | | z i j - h i j (x i, x j) | | 2 Λ i j (2)

$\underset{\mathbf{x}_b,\mathbf{x}_m}{\operatorname{argmin}}\sum_{(i,j)\in \mathbf{z}_m}\frac{1}{2}||\mathbf{z}_{ij}-\mathbf{h}_{ij}(\mathbf{x}_i,\mathbf{x}_j)||^2_{\mathbf{\Lambda}_{ij}}\quad\quad(2)$ 在求解这个非线性最小二乘的时候，我们可以得到其信息矩阵（Hessian）如下

H = [H m m H b m H T b m H b b]

$\mathbf{H}=\begin{bmatrix} \mathbf{H}_{mm} &\mathbf{H}^T_{bm} \\ \mathbf{H}_{bm} & \mathbf{H}_{bb} \end{bmatrix}$ 一般的，我们计算

Hx=b $Hx=b$ 就能得到

x $x$ ，然而这里我们不需要计算

xm $\mathbf{x}_m$ ，因此可以对H矩阵进行Schur Complement分解就能直接求解

xb $\mathbf{x}_b$ ：

(H b b - H b m H - 1 m m H T b m) x^b = b b - H b m H - 1 m m b m

$(\mathbf{H}_{bb}-\mathbf{H}_{bm}\mathbf{H}_{mm}^{-1}\mathbf{H}_{bm}^T)\hat{\mathbf{x}}_b=\mathbf{b}_b-\mathbf{H}_{bm}\mathbf{H}_{mm}^{-1}\mathbf{b}_m$ 因此，我们即得到了

x^b $\hat{\mathbf{x}}_b$ ,又得到了

Λt=(Hbb−HbmH−1mmHTbm) $\mathbf{\Lambda_t}=(\mathbf{H}_{bb}-\mathbf{H}_{bm}\mathbf{H}_{mm}^{-1}\mathbf{H}_{bm}^T)$ 。一旦这个先验信息得到确定，之前公式(1)中求解

xm,xb,xr $\mathbf{x}_m,\mathbf{x}_b,\mathbf{x}_r$ 全状态问题就可以丢掉

xm $\mathbf{x}_m$ 而不损失信息：

argmin x 1 2 | | x^b - x b | | 2 Λ t + \sum (i, j) \in (z c, z r) 1 2 | | z i j - h i j (x i, x j) | | 2 Λ i j (3)

$\underset{\mathbf{x}}{\operatorname{argmin}}\frac{1}{2}||\hat{\mathbf{x}}_b-\mathbf{x}_b||^2_{\mathbf{\Lambda}_{t}} + \sum_{(i,j)\in (\mathbf{z}_c,\mathbf{z}_r)}\frac{1}{2}||\mathbf{z}_{ij}-\mathbf{h}_{ij}(\mathbf{x}_i,\mathbf{x}_j)||^2_{\mathbf{\Lambda}_{ij}}\quad\quad(3)$ 如果我们直接丢掉

xm $\mathbf{x}_m$ ，也不引入先验，那最多算是丢失了信息，然而上述过程中，稍微不注意就可能人为引入错误信息而慢慢导致系统崩溃。下面就来讨论下First Estimate Jacobians.

First Estimate Jacobians

在marg的时候，我们需要不断迭代计算H矩阵和残差b，而迭代过程中，状态变量会被不断更新，计算雅克比时我们要fix the linearization point。也就是计算雅克比时求导变量要固定，而不是用每次迭代更新以后的x去求雅克比，这就是所谓的用第一次得到的雅克比（First Estimate Jacobians）。在之前介绍的泡泡机器人的推文或我的博文中都已经直观的介绍了这里面的原理，在这里我们将采用更理论的方式来进行分析。

假设之前求最小二乘的损失函数可以表达成：

c (x) = c m (x m, x b) + c r (x b, x r)

$\mathcal{c}(\mathbf{x})=\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)+\mathcal{c}_r(\mathbf{x}_b,\mathbf{x}_r)$ 因此，我们就能得到：

min x c = min x b, x r (min x m c (x m, x b, x r)) = min x b, x r (min x m c m (x m, x b) + c r (x b, x r))

$\underset{\mathbf{x}}{\operatorname{min}}\mathcal{c}=\underset{\mathbf{x}_b,\mathbf{x}_r}{\operatorname{min}}(\underset{\mathbf{x}_m}{\operatorname{min}}\mathcal{c}(\mathbf{x}_m,\mathbf{x}_b,\mathbf{x}_r))=\underset{\mathbf{x}_b,\mathbf{x}_r}{\operatorname{min}}(\underset{\mathbf{x}_m}{\operatorname{min}}\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)+\mathcal{c}_r(\mathbf{x}_b,\mathbf{x}_r))$ 求上面这个方程，我们可以先最小化

cm(xm,xb) $\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)$ ，注意这一步和我们求解先验信息时是一样的，我们对它在最优值附近二阶泰勒展开得到：

c m (x m, x b) ≃ c m (x^m, x^b) + g T [x m - x^m x b - x^b] + 1 2 [x m - x^m x b - x^b] T H [x m - x^m x b - x^b] (4)

$\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)\simeq\mathcal{c}_m(\hat{\mathbf{x}}_m,\hat{\mathbf{x}}_b)+\mathbf{g}^T\begin{bmatrix} \mathbf{x}_m-\hat{\mathbf{x}}_m\\ \mathbf{x}_b-\hat{\mathbf{x}}_b \end{bmatrix}+\frac{1}{2}\begin{bmatrix} \mathbf{x}_m-\hat{\mathbf{x}}_m\\ \mathbf{x}_b-\hat{\mathbf{x}}_b \end{bmatrix}^T\mathbf{H}\begin{bmatrix} \mathbf{x}_m-\hat{\mathbf{x}}_m\\ \mathbf{x}_b-\hat{\mathbf{x}}_b \end{bmatrix}\quad\quad(4)$ 其中

g = [g m m g m b], H = [H m m H b m H T b m H b b]

$\mathbf{g}=\begin{bmatrix} \mathbf{g}_{mm}\\ \mathbf{g}_{mb} \end{bmatrix},\mathbf{H}=\begin{bmatrix} \mathbf{H}_{mm} &\mathbf{H}^T_{bm} \\ \mathbf{H}_{bm} & \mathbf{H}_{bb} \end{bmatrix}$ 分别是雅克比和Hessien矩阵,注意，他们求导时的变量(即线性化点)是

x^m,x^b $\hat{\mathbf{x}}_m,\hat{\mathbf{x}}_b$ 。我们依然使用schur分解marg掉

xm $\mathbf{x}_m$ ，但是这次我们选择求解

xm $\mathbf{x}_m$ :

x m = x^m - H - 1 m m (g m m + H T b m (x b - x^b))

$\mathbf{x}_m=\hat{\mathbf{x}}_m-\mathbf{H}^{-1}_{mm}(\mathbf{g}_{mm}+\mathbf{H}^{T}_{bm}(\mathbf{x}_b-\hat{\mathbf{x}}_b))$ 把计算出来的

xm $\mathbf{x}_m$ 带入公式(4)就能得到：

min x c m (x m, x b) ≃ min x ζ + g T t (x b - x^b) + 1 2 (x b - x^b) T Λ t (x b - x^b) (5)

$\underset{\mathbf{x}}{\operatorname{min}}\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)\simeq\underset{\mathbf{x}}{\operatorname{min}}\zeta+\mathbf{g}^T_t(\mathbf{x}_b-\hat{\mathbf{x}}_b)+\frac{1}{2}(\mathbf{x}_b-\hat{\mathbf{x}}_b)^T\mathbf{\Lambda}_t(\mathbf{x}_b-\hat{\mathbf{x}}_b)\quad\quad(5)$ 其中

Λt $\mathbf{\Lambda}_t$ 我们已经知道，而

gt $\mathbf{g}_t$ 就是公式(4)消去

xm $\mathbf{x}_m$ 得到的：

g t = g m b - H b m H - 1 m m g m m

$\mathbf{g}_t=\mathbf{g}_{mb}-\mathbf{H}_{bm}\mathbf{H}^{-1}_{mm}\mathbf{g}_{mm}$ 注意，它就是上面那个近似损失函数(5)的一阶导数，我们求解最小值的时候不就是令一阶导数等于0吗，所以在

x^b $\hat{\mathbf{x}}_b$ 处有

gt=0 $\mathbf{g}_t=0$ .

现在我们把损失函数 $\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)$ 去掉了 $\mathbf{x}_m$ 得到了无信息损失的近似函数公式(5), 那我们把公式(5)代入公式:

c (x) = c m (x m, x b) + c r (x b, x r)

$\mathcal{c}(\mathbf{x})=\mathcal{c}_m(\mathbf{x}_m,\mathbf{x}_b)+\mathcal{c}_r(\mathbf{x}_b,\mathbf{x}_r)$

c' r (x b, x r) = g T t (x b - x^b) + 1 2 (x b - x^b) T Λ t (x b - x^b) + \sum (i, j) \in (z c, z r) 1 2 | | z i j - h i j (x i, x j) | | 2 Λ i j (6)

$\mathcal{c}^{'}_r(\mathbf{x}_b,\mathbf{x}_r)=\mathbf{g}^T_t(\mathbf{x}_b-\hat{\mathbf{x}}_b)+\frac{1}{2}(\mathbf{x}_b-\hat{\mathbf{x}}_b)^T\mathbf{\Lambda}_t(\mathbf{x}_b-\hat{\mathbf{x}}_b)+\sum_{(i,j)\in (\mathbf{z}_c,\mathbf{z}_r)}\frac{1}{2}||\mathbf{z}_{ij}-\mathbf{h}_{ij}(\mathbf{x}_i,\mathbf{x}_j)||^2_{\mathbf{\Lambda}_{ij}}\quad\quad(6)$ 我们在最小化上式求解的过程中，如果雅克比采用的是marg

xm $\mathbf{x}_m$ 时的值，即对

xb $\mathbf{x}_b$ 的求导是采用的

x^b $\hat{\mathbf{x}}_b$ ,由于

gt=0 $\mathbf{g}_t=0$ ，此时公式(6)就等价于公式(3)。如果不这么做，而是采用和

xr $\mathbf{x}_r$ 一起优化后不断迭代得到的新

xb $\mathbf{x}_b$ 去计算雅克比，这时

gt!=0 $g_t!=0$ 那我们的公式(6)相对于公式(3)，就引入了人为伪造的信息，系统就会慢慢被破坏。

如果有了这个概念，我们再回到DSO的论文中，就不难理解论文中的公式了。

DSO中的windowed optimization

在DSO论文的2.3节，在进行窗口优化Gauss-Newton迭代的时候，作者特意强调要使用First Estimate Jacobians技术。作者将优化前的状态定义为 $\mathbf{\zeta}_0$ ,高斯牛顿迭代过程的总的累计量定义为 $\mathbf{x}$ ,高斯牛顿迭代中每一步得到的增量 $\mathbf{\delta}$ 。作者用了下面一个图来讲解这些变量的关系：

我们可以看到在优化过程中有：

x n e w \leftarrow δ + x ζ \leftarrow x \oplus ζ 0

$\mathbf{x}^{new}\leftarrow \mathbf{\delta}+\mathbf{x}\\ \mathbf{\zeta}\leftarrow \mathbf{x}\oplus\mathbf{\zeta}_0$ 作者一再强调，求雅克比时要在

x=0，即ζ0 $\mathbf{x}=0，即\mathbf{\zeta}_0$ 处去求，就是第一次计算得到的雅克比，别每次随着状态变量的更新而重新计算雅克比。知道了这些概念，再读DSO的论文就会容易许多。

扩展

上面只是理论的一些推导，在实际应用中还要考虑稀疏矩阵H会变得稠密。仔细想一想，我们在marg的过程中，要去掉变量还要保留他的信息，把以前一个大的H矩阵丢掉一些维度压缩到一个小的H矩阵里，不可避免的就会使得原本稀疏的H矩阵变得稠密，这就是所谓的fill-in。DSO,OKVIS的作者在使用的时候都使用了一些策略那尽量维持稀疏性，在上面提到的我的另一篇博文中有详细介绍，这里不再赘述。

（转载请注明作者和出处：http://blog.csdn.net/heyijia0327 未经允许请勿用于商业用途）

【版权声明】泡泡机器人SLAM的所有文章全部由泡泡机器人的成员花费大量心血制作而成的原创内容，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能否进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！
【注】商业转载请联系刘富强（liufuqiang_robot@hotmail.com）进行授权。普通个人转载，请保留版权声明，并且在文章下方放上“泡泡机器人SLAM”微信公众账号的二维码即可。

ref:
[1] 《Direct Sparse Odometry》
[2] 《Decoupled, Consistent Node Removal and Edge Sparsification for Graph-based SLAM》

33 条评论

xxx.join 2022.10.29
公式(3)的理解是把Xb固定在X^b附近，不因为xb和xr的优化导致xb离初始优化值X^b太远。从而保存xm,xb,xr的一致性在一定范围内吗

jillar 2021.11.26
公式(4)和(5)之间的第二个式子是正确的吗？里面的gmm感觉应该是bm

cumtzenghe 2020.10.16
你好，请问里面的公式怎么显示不出来了？

xaoshuan 2018.08.22
你好,请问在您降到marg的时候,Hx=b,求出来的应该是增量x吧?不应该是x_b本身的最优解吧?没有看明白为什么求出来的x就是本身的最优解.

struggle_to_better 2018.08.02
您好，请问公式（2）（3）之间的Hx=b是不是不太对，不是δx吗？

bairx 2018.04.12
在算cm(x)部分的Xb雅克比时，是否要加入Xm的先验信息？单纯看上面的推导，感觉潜在的含义是Xm的值是固定的，因为并没有考虑Xm的不确定度。

bairx 2018.04.09
Xm对应要删去的变量，Xb对应和Xm有直接联系的变量，Xr对应剩余的变量。Zr对应的残差中有约束Xb和Xr的，比如上面的Z04。在滑窗优化时，先验部分对Xb的雅克比是固定的，那Zr部分对Xb的雅克比是不是也要固定？并且取相同的点？或者上面的公式c(x) = cm(x) + cr(x)中，cm(x)是先验约束，cr(x)是投影残差约束，cm(x)会产生Xb的雅克比， cr(x)也会有Xb的雅克比，是不是这两部分的雅克比都要固定，并且是同一个线性化点？
- 白巧克力亦唯心回复huang826144283 2019.03.28
  [reply]huang826144283[/reply] 是的，如果这个状态点有了先验，那些跟他有关的 error 在计算的时候就得考虑雅克比是解析的计算还是用历史的FEJ。
- huang826144283回复白巧克力亦唯心 2019.03.28
  [reply]heyijia0327[/reply] 是的，我看okvis和vins里都是只在margError里固定了，而且我觉得它的固定也是不得已的，因为marg里的雅各比是从苏尓补求解的，Evaluate函数里并没有它的解析式。我想问下，如果我把所有error都做FEJ，那这个线性化点是不是该有针对性地，对没有先验因子加入的求解器，我所有error都不采用FEJ，一旦有先验加入，就集体用FEJ？
- dymymao回复白巧克力亦唯心 2018.05.07
  [reply]heyijia0327[/reply] 博主你好，请教下，从Engel那张图的角度来看，正是由于同一个变量在同一次非线性优化迭代中采用了不同的线性化点才会造成系统零空间的降维，那么我的理解也是要将所有的关于xb的jacobian固定,先验部分的已经固定，也不需要再额外计算，而重要的不就是固定c(xb,xr)中xb的jacobian和先验中的一致么？不然为何称为FEJ? 所以的我的理解是倾向于VINS-Mono并没有采用FEJ(它论文中也没提FEJ)。不知博主怎么理解？
- 白巧克力亦唯心回复bairx 2018.04.09
  [reply]bairx[/reply] 很好的问题，这个问题我跟若干个人讨论个过，大家有不同的理解。之前大家都倾向于所有涉及xb的地方都固定，包括zr部分。但是okvis和vins的代码中貌似只需要固定先验部分对xb的雅克比，zr部分不需要固定。okvis的代码我没看（别人看了），vins中只固定了先验部分，zr部分没固定。具体的深入验证可能需要自己写代码进行验证。

bairx 2018.04.09
First Estimate Jacobians技术只出现在marg部分吗？在Zr残差部分的线性化中涉及到Xb，需要和marg部分线性化点一致吗？感觉 okvis代码中 marginalizationError定义了上面的先验约束的部分（包括了FEJ），在外层的Estimator类做优化没有要求其它的涉及Xb的变量线性化点固定。
- 白巧克力亦唯心回复bairx 2018.04.09
  [reply]bairx[/reply] 关于你的问题我没看太明白。marg掉的先验里面残差对应的雅克比是需要fix的。

bairx 2018.04.04
你好，感觉orb slam中的local BA, 把要删除的点设为固定值，同样的限制了规模，同样不破坏之前的约束，不知道这个滑动窗算法比local BA强在什么地方？感觉局部优化最想有的是能把当前的约束传回到以前的状态中，极端情况是在闭环优化中，而这两个算法都没有这方面的解决方案。
- 白巧克力亦唯心回复bairx 2018.04.04
  [reply]bairx[/reply] orb slam 那种 fix 的方式你可以理解为margnilization的简化版，即无限相信相信窗口外的pose。认为他们位姿都已经很完美了，我们直接相信他们，fix他们就行。margnilization里不一样，不fix窗口外的pose，而是显示的去计算窗口外的约束对窗口内的影响应该有多大（信息矩阵或者称其为协方差的逆）。你说的另一个问题，当前约束传回以前的状态，这就是现在局部窗口法所做的啊。当前时刻的观测会对窗口内（窗口内的状态也是过去的状态啊）的状态优化产生影响。