Online Temporal Calibration for Monocular Visual-Inertial Systems 翻译

最新推荐文章于 2024-07-22 16:17:35 发布

学渣在路上

最新推荐文章于 2024-07-22 16:17:35 发布

阅读量567

点赞数

分类专栏：工作经验翻译

本文链接：https://blog.csdn.net/XDH19910113/article/details/110385276

版权

工作经验同时被 2 个专栏收录

35 篇文章 3 订阅

订阅专栏

翻译

4 篇文章 2 订阅

订阅专栏

单眼视觉惯性系统的在线时间校准

摘要

精准的状态估计是各种智能应用程序的基本模块（例如机器人导航，自动驾驶，虚拟和增强现实）。近年来, 视觉和惯性融合是用于6自由度状态估计的流行技术。实时记录不同传感器的测量值对于系统的鲁棒性和准确性至关重要。实际上，每个传感器的时间戳通常会遭受触发和传输延迟，从而导致不同传感器之间的时间未对准（时间偏移）。这种时间偏移极大地影响了传感器融合的性能。为此，我们提出了一种在线方法，用于校准视觉和惯性测量之间的时间偏移。我们的方法通过共同优化时间偏移，相机和IMU状态以及SLAM系统中的特征位置来实现时间偏移校准。此外，该方法是一个通用模型，可以轻松地在几个基于特征的优化框架中使用。仿真和实验结果表明，即使与其他最新的离线工具相比，我们的校准方法也具有很高的准确性。VIO与其他方法的比较证明，在线时间校准显着有益于视觉惯性系统。时间校准的源代码已集成到我们的公共项目VINS-Mono中。

1. 介绍

在过去的几十年中，状态估计一直是机器人技术和计算机视觉社区的基础研究主题。机器人导航，自动驾驶，虚拟现实（VR）和增强现实（AR）等各种应用高度依赖准确的状态估计。由于其体积小，功耗低且机械配置简单，我们对仅涉及一台摄像机的状态估计解决方案特别感兴趣。单眼视觉技术[1]–[7]取得了优异的成绩，该技术可计算出准确的相机运动和最大比例的环境结构。为了解决众所周知的规模模糊性，多传感器融合方法越来越受到关注。许多研究[8]–[17]辅助使用IMU（惯性测量单元）的摄像机，该摄像机在6自由度SLAM（同时定位和制图）中取得了出色的性能。一方面，惯性测量可以观察到俯仰和横滚角以及比例。另一方面，惯性测量通过在视觉跟踪失败时弥合间隙来改善运动跟踪性能。

为了融合来自不同传感器的数据，必须精确知道记录测量的时刻。实际上，每个传感器的时间戳通常会遭受触发和传输延迟，从而导致不同传感器流之间的时间未对准（时间偏移）。因此，传感器的时间同步可能是会导致多传感器系统的关键问题。对于视觉惯性系统，摄像机和IMU之间的时间偏移会极大地影响坚固性和准确性。大多数视觉惯性方法[13、14、16、17]都假定测量的时间戳在单个时钟下是精确的。因此，这些方法适用于一些严格的硬件同步传感器。对于大多数低成本且自组装的传感器组，硬件同步不可用。由于触发和传输延迟，相机和IMU之间始终存在时间偏差（时间偏移）。时间偏移量通常在几毫秒到几百毫秒之间。数十毫秒将导致IMU序列与图像流完全不对齐，从而极大地影响视觉惯性系统的性能。

为此，我们提出了一种在线校准视觉惯性系统的时间偏移的方法。我们假设时间偏移是一个未知常数。我们通过在线估计相机，IMU状态以及SLAM系统中的功能位置来对其进行校准。我们的校准方法是一个普遍因素，可以很容易地在其他基于功能的视觉惯性优化框架中使用。尽管我们使用单眼传感器套件来展示我们的方法，但是所提出的方法可以轻松地应用于多摄像机视觉惯性系统。我们强调我们的贡献如下：

•我们提出了一种在线方法来校准时间视觉惯性系统中相机和IMU之间的偏移量。

•我们通过仿真和实际实验展示了在线时间校准的重要性。

•开源代码已集成到公共项目中。

本文的其余部分的结构如下。在章节二中我们讨论相关文献。算法在章节三中详细介绍。实施细节和实验评估在章节四中介绍。最后，本文总结于章节五。

2. 相关工作

在过去的几十年中，在视觉惯性测距技术方面进行了大量研究，旨在高精度地计算相机的运动和环境结构。流行的技术是基于过滤器的框架[9]–[12，17]，或批处理优化[13]–[16，18]。大多数视觉惯性算法通过提取鲁棒的稀疏特征而不是对密集图像进行运算来处理图像。在这些作品中，[9，10，18]使用了无结构视觉因子，该因子通过将视觉残差投影到零空间来消除特征。他们更多地专注于估计摄像机或IMU运动，而不是功能位置。[13、14、16]有选择地将关键帧和特征保持在捆绑包中，从而将相机的运动和特征优化在一起。所有这些方法都假定IMU和摄像机精确同步，没有时间偏差。

IMU和摄像头之间的时间未对准是低成本和自组装设备中的典型问题。由于时钟不同步，触发延迟和传输延迟，因此测量的时间戳与实际的采样时间不一致。该时间偏移是未知的，需要进行校准。几项研究集中于对其进行校准。Mair [19]提出了一种用于时间和空间校准的初始化方法，该方法使用互相关或相位一致性。这种方法以新颖而特殊的方式制定了校准程序。它将校准后的变量与其他未知变量（姿势，特征位置）分开。因此，它可以提供良好的先验性，而不受其他变量的影响。进一步地，方法以更精确的公式模拟了时间偏移。Kelly [20]对齐摄像机和IMU的旋转曲线以校准时间偏移。它利用ICP（迭代最近点）方法的一种变体来逐渐匹配两条旋转曲线。来自Furgale [21]的Kalibr在连续批量优化过程中估计了时间偏移，摄像机运动以及摄像机和IMU之间的外部参数。Kalibr取得了令人印象深刻的性能，并成为受欢迎的工具箱。但是，这两种方法都以固定的平面图案（例如棋盘）离线运行。校准模式为他们提供了强大的功能跟踪和关联以及准确的3D位置。此外，李在[22]中提出了一种针对相机-IMU系统的具有在线时间校准的运动估计方法。时间偏移是在多状态约束的EKF框架中校准的。他的方法在计算复杂度方面具有显着优势，可以在便携式移动设备上使用。与他的方法相比，我们的基于优化的算法在准确性方面胜于其他人，因为我们可以迭代地优化一大束中的许多变量，而不必及早修复线性化误差。

3. 算法

在本节中，我们在视觉因子中对时间偏移建模，并在基于优化的VIO框架中在线计算时间偏移以及功能，IMU和摄像机状态我们简要地表示如下的框架和符号。

我们简要地表示框架和表示法如下。（·）w表示全局框架。（·）c表示本地摄像机框。（Rwc，Pwc）是全局框架中的摄像机姿势，可以将3D特征从摄像机框架转换为全局框架。

图1.摄像机和IMU流之间的时间未对准（时间偏移）说明。上方的图表示采样时刻。下图显示了带有时间戳的瞬间。由于触发延迟，传输延迟和时钟不同步，导致生成的时间戳不等于实际采样时间，从而导致相机和IMU之间的时间未对准。时间偏移量td是我们应该偏移摄像机时间戳记以使摄像机和IMU数据流在时间上保持一致的时间量。

A. 时间偏移

对于低成本且自组装的视觉惯性传感器组，无需严格的时间同步即可将摄像机和IMU放在一起。由于触发延迟，传输延迟和时钟不同步，因此生成的时间戳不等于测量采样的时刻。因此，通常在不同测量之间存在时间偏移。通常情况下，传感器之间的时间偏移是一个未知的恒定值。在某些更坏的情况下，传感器会收集不同的时钟，并且时间偏移量会随着时间而漂移。这种传感器不符合传感器融合的要求。

在本文中，我们考虑一般情况，其中时间偏移量td是一个未知常数。图1是一张描绘了说明时间偏移的图片。在图片中，上方的图表示采样时刻。下图显示了带有时间戳的瞬间。由于触发延迟，传输延迟和时钟不同步，导致生成的时间戳不等于实际采样时间，从而导致相机和IMU之间的时间未对准。具体来说，我们将td定义为

时间偏移量td是我们应该偏移摄像机时间戳记的时间，以便摄像机和IMU数据流在时间上保持一致。td可以是正值或负值。如果摄像机序列的等待时间比IMU序列的等待时间长，则td为负值。否则，td为正值。

图2.在图像平面上的特征速度示意图。 Ik和Ik + 1是两个连续的图像帧。 [ukl，vkl]和[uk + 1l，vk + 1l]分别是在图像平面Ik和Ik + 1上的要素2D观察。假定相机在短时间段[tk，tk + 1]中以恒定的速度从Ck移至Ck + 1。因此，我们大概认为特征l在短时间内也在图像平面上以恒定速度Vkl移动。

B. 图像平面上的特征速度

为了使摄像机和IMU数据流在时间上保持一致，应根据td向前或向后移动摄像机序列。我们没有转移整个摄像机或IMU序列，而是专门转移了时间轴上的要素观察。为此，我们引入了特征速度来建模和补偿时间未对准。

在很短的时间段（几毫秒）内，相机的运动可以视为恒速运动。因此，特征在短时间内在图像平面上以近似恒定的速度移动。基于此假设，我们可以计算特征在图像平面上的速度。

如图2所示，Ik和Ik + 1是两个连续的图像帧。假设照相机在短时间段[tk，tk + 1]中以恒定的速度从Ck移至Ck+1。因此，我们大约认为特征l在这个短时间段内也在图像平面上以恒定速度Vkl移动。速度Vkl计算如下：

其中[ukl，vkl]和[uk+1l，vk+1l]分别是图像平面Ik和Ik+1上的特征2D观测。

C. 视觉因素与时间偏移

在经典的稀疏视觉SLAM算法中，视觉测量被公式化为成本函数中的（重新）投影误差。我们通过添加新变量时间偏移量来反映经典（重新）投影误差。特征有两个典型的参数化。一些算法将特征参数化为其在全局框架中的3D位置，而其他算法将特征参数化为相对于某个图像帧的深度或反深度。在下文中，我们分别使用这两种参数化将时间偏移建模为视觉因子。

1）3D位置参数化：将该功能参数化为全局框架中的3D位置（Pl=[xl，yl，zl] T）。传统上，将视觉测量公式化为投影误差，

zkl是帧k中特征l的观测值。（Rwck，Pwck）是摄像机姿势，它将特征P1从全局帧转换为本地摄像机帧。π（·）表示相机投影模型，该模型将3D特征投影到具有失真的图像平面中。

在上述公式中，通过视觉测量来限制照相机姿势（Rwck，pwck）。它也受到IMU测量的限制。实际上，如果IMU和摄像机之间存在时间未对准，则IMU约束与时域中的视觉约束不一致。换句话说，我们应该向前或向后移动摄像机序列，以使摄像机和IMU数据流在时间上保持一致。我们没有转移整个摄像机或IMU的顺序，而是在时间轴上转移了特征的观测值。新的表述如下：

Vkl是要素在图像平面上的速度，取自公式2. td是时间偏移量的未知变量，它会在时域中移动要素的观测。通过优化td，我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

2）深度参数化：还可以将特征参数设置为相对于图像帧的深度或反深度。我们以图像i中的深度λi为例。从图像i到图像j的传统重投影误差写为：

首先将特征l投影到全局框架中，然后再投影到局部相机框架j中的图像平面上。残差是观测值和反投影位置之间的位移。与公式4相似，我们考虑了时间偏移量td

图3描述了重新投影过程。虚线表示没有时间偏移建模的传统重投影过程。实线表示建议的重新投影，其中考虑了时间偏移。黄线表示IMU约束。IMU约束与传统的重投影约束不一致。通过优化td，我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

图3.重投影过程示意图。虚线表示没有时间偏移建模的传统重投影过程。实线表示提出的重新投影，该重新投影将时间偏移考虑在内。黄线表示IMU约束。 IMU约束与传统的重投影约束不一致。通过优化td，我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

D. 时间偏移优化

通过利用上述视觉因素，我们可以轻松地将时间校准功能添加到典型的基于视觉惯性优化的框架中，例如[13，16，23]。在这些框架中，视觉惯性定位和映射被公式化为将视觉和惯性测量紧密结合的非线性优化问题。如图4所示，几个摄像机框架和IMU测量被捆绑在一起。捆绑包的大小通常限于受限的计算复杂性。本地捆绑包调整（BA）共同优化摄像机和IMU状态以及功能位置。

图4.视觉惯性定位和制图问题的图示。我们将多个相机框架和IMU测量值捆绑在一起进行维护。通常限制束大小以减少计算复杂性。本地捆绑调整（BA）共同优化摄像机和IMU状态以及功能位置。

我们可以轻松地将提议的视觉因素（III-C）添加到这种框架中。具体来说，整个状态变量会增加时间偏移量，这些时间偏移量定义为：

其中第k个IMU状态由全局框架中的位置Pwk，速度Vwk，方向Rwk和局部主体框架中的IMU偏差ba，bg组成。通过全局帧中的3D位置或相对于特定图像帧的深度来参数化特征P1。

整个问题被表述为一个包含IMU传播因子，重投影因子以及某个先验因子的成本函数。因此，我们使用拟议的视觉（III-C）因子来实现时间偏移校准，

eB（zkk+1，X）是来自IMU传播的误差项。 B是所有IMU测量值的集合。 eC（zjl，X）是建议的视觉（重新）投影误差，其中包括时间偏移量变量。 C是在图像帧中至少观察到两次的特征集。误差由它们的逆协方差P加权。{ep，Hp}是来自先验知识和边缘化的先验信息。优化包中仅保留少量测量和状态，而其他测量和状态则被边缘化并转换为先验。非线性最小二乘成本函数可以使用高斯-牛顿法进行有效地优化。

E. 时间补偿

每次优化后，我们通过移动后续视觉流的时间戳来补偿时间偏移，如t0 cam = tcam + td。然后，系统随后在补偿的视觉测量值和惯性测量值之间估算δtd。 δtd将在后续数据流中迭代优化，并将收敛为零。随着时间间隔δtd的减小，我们的基本假设（特征在较短的时间间隔内在图像平面上以恒定的速度移动）越来越合理。即使开始时有很大的时间偏移量（例如几百毫秒），该过程也会逐步补偿它。