Online Temporal Calibration for Monocular Visual-Inertial Systems 翻译

单眼视觉惯性系统的在线时间校准

摘要

精准的状态估计是各种智能应用程序的基本模块(例如机器人导航,自动驾驶,虚拟和增强现实)。近年来, 视觉和惯性融合是用于6自由度状态估计的流行技术。 实时记录不同传感器的测量值对于系统的鲁棒性和准确性至关重要。 实际上,每个传感器的时间戳通常会遭受触发和传输延迟,从而导致不同传感器之间的时间未对准(时间偏移)。 这种时间偏移极大地影响了传感器融合的性能。 为此,我们提出了一种在线方法,用于校准视觉和惯性测量之间的时间偏移。我们的方法通过共同优化时间偏移,相机和IMU状态以及SLAM系统中的特征位置来实现时间偏移校准。此外,该方法是一个通用模型,可以轻松地在几个基于特征的优化框架中使用。仿真和实验结果表明,即使与其他最新的离线工具相比,我们的校准方法也具有很高的准确性。VIO与其他方法的比较证明,在线时间校准显着有益于视觉惯性系统。时间校准的源代码已集成到我们的公共项目VINS-Mono中。

1. 介绍

在过去的几十年中,状态估计一直是机器人技术和计算机视觉社区的基础研究主题。机器人导航,自动驾驶,虚拟现实(VR)和增强现实(AR)等各种应用高度依赖准确的状态估计。由于其体积小,功耗低且机械配置简单,我们对仅涉及一台摄像机的状态估计解决方案特别感兴趣。单眼视觉技术[1]–[7]取得了优异的成绩,该技术可计算出准确的相机运动和最大比例的环境结构。为了解决众所周知的规模模糊性,多传感器融合方法越来越受到关注。许多研究[8]–[17]辅助使用IMU(惯性测量单元)的摄像机,该摄像机在6自由度SLAM(同时定位和制图)中取得了出色的性能。一方面,惯性测量可以观察到俯仰和横滚角以及比例。另一方面,惯性测量通过在视觉跟踪失败时弥合间隙来改善运动跟踪性能。

为了融合来自不同传感器的数据,必须精确知道记录测量的时刻。实际上,每个传感器的时间戳通常会遭受触发和传输延迟,从而导致不同传感器流之间的时间未对准(时间偏移)。因此,传感器的时间同步可能是会导致多传感器系统的关键问题。对于视觉惯性系统,摄像机和IMU之间的时间偏移会极大地影响坚固性和准确性。大多数视觉惯性方法[13、14、16、17]都假定测量的时间戳在单个时钟下是精确的。因此,这些方法适用于一些严格的硬件同步传感器。对于大多数低成本且自组装的传感器组,硬件同步不可用。由于触发和传输延迟,相机和IMU之间始终存在时间偏差(时间偏移)。时间偏移量通常在几毫秒到几百毫秒之间。数十毫秒将导致IMU序列与图像流完全不对齐,从而极大地影响视觉惯性系统的性能。

为此,我们提出了一种在线校准视觉惯性系统的时间偏移的方法。我们假设时间偏移是一个未知常数。我们通过在线估计相机,IMU状态以及SLAM系统中的功能位置来对其进行校准。 我们的校准方法是一个普遍因素,可以很容易地在其他基于功能的视觉惯性优化框架中使用。尽管我们使用单眼传感器套件来展示我们的方法,但是所提出的方法可以轻松地应用于多摄像机视觉惯性系统。 我们强调我们的贡献如下:

•我们提出了一种在线方法来校准时间视觉惯性系统中相机和IMU之间的偏移量。

•我们通过仿真和实际实验展示了在线时间校准的重要性。

•开源代码已集成到公共项目中。

本文的其余部分的结构如下。在章节二中我们讨论相关文献。算法在章节三中详细介绍。实施细节和实验评估在章节四中介绍。最后,本文总结于章节五。

2. 相关工作

在过去的几十年中,在视觉惯性测距技术方面进行了大量研究,旨在高精度地计算相机的运动和环境结构。 流行的技术是基于过滤器的框架[9]–[12,17],或批处理优化[13]–[16,18]。大多数视觉惯性算法通过提取鲁棒的稀疏特征而不是对密集图像进行运算来处理图像。在这些作品中,[9,10,18]使用了无结构视觉因子,该因子通过将视觉残差投影到零空间来消除特征。 他们更多地专注于估计摄像机或IMU运动,而不是功能位置。[13、14、16]有选择地将关键帧和特征保持在捆绑包中,从而将相机的运动和特征优化在一起。所有这些方法都假定IMU和摄像机精确同步,没有时间偏差。

IMU和摄像头之间的时间未对准是低成本和自组装设备中的典型问题。 由于时钟不同步,触发延迟和传输延迟,因此测量的时间戳与实际的采样时间不一致。该时间偏移是未知的,需要进行校准。几项研究集中于对其进行校准。Mair [19]提出了一种用于时间和空间校准的初始化方法,该方法使用互相关或相位一致性。这种方法以新颖而特殊的方式制定了校准程序。 它将校准后的变量与其他未知变量(姿势,特征位置)分开。因此,它可以提供良好的先验性,而不受其他变量的影响。进一步地,方法以更精确的公式模拟了时间偏移。Kelly [20]对齐摄像机和IMU的旋转曲线以校准时间偏移。 它利用ICP(迭代最近点)方法的一种变体来逐渐匹配两条旋转曲线。 来自Furgale [21]的Kalibr在连续批量优化过程中估计了时间偏移,摄像机运动以及摄像机和IMU之间的外部参数。Kalibr取得了令人印象深刻的性能,并成为受欢迎的工具箱。 但是,这两种方法都以固定的平面图案(例如棋盘)离线运行。 校准模式为他们提供了强大的功能跟踪和关联以及准确的3D位置。 此外,李在[22]中提出了一种针对相机-IMU系统的具有在线时间校准的运动估计方法。时间偏移是在多状态约束的EKF框架中校准的。 他的方法在计算复杂度方面具有显着优势,可以在便携式移动设备上使用。 与他的方法相比,我们的基于优化的算法在准确性方面胜于其他人,因为我们可以迭代地优化一大束中的许多变量,而不必及早修复线性化误差。

3. 算法

在本节中,我们在视觉因子中对时间偏移建模,并在基于优化的VIO框架中在线计算时间偏移以及功能,IMU和摄像机状态我们简要地表示如下的框架和符号。

我们简要地表示框架和表示法如下。(·)w表示全局框架。(·)c表示本地摄像机框。(Rwc,Pwc)是全局框架中的摄像机姿势,可以将3D特征从摄像机框架转换为全局框架。

图1.摄像机和IMU流之间的时间未对准(时间偏移)说明。 上方的图表示采样时刻。 下图显示了带有时间戳的瞬间。 由于触发延迟,传输延迟和时钟不同步,导致生成的时间戳不等于实际采样时间,从而导致相机和IMU之间的时间未对准。 时间偏移量td是我们应该偏移摄像机时间戳记以使摄像机和IMU数据流在时间上保持一致的时间量。

A. 时间偏移

对于低成本且自组装的视觉惯性传感器组,无需严格的时间同步即可将摄像机和IMU放在一起。由于触发延迟,传输延迟和时钟不同步,因此生成的时间戳不等于测量采样的时刻。因此,通常在不同测量之间存在时间偏移。通常情况下,传感器之间的时间偏移是一个未知的恒定值。在某些更坏的情况下,传感器会收集不同的时钟,并且时间偏移量会随着时间而漂移。这种传感器不符合传感器融合的要求。

在本文中,我们考虑一般情况,其中时间偏移量td是一个未知常数。图1是一张描绘了说明时间偏移的图片。在图片中,上方的图表示采样时刻。下图显示了带有时间戳的瞬间。由于触发延迟,传输延迟和时钟不同步,导致生成的时间戳不等于实际采样时间,从而导致相机和IMU之间的时间未对准。具体来说,我们将td定义为

时间偏移量td是我们应该偏移摄像机时间戳记的时间,以便摄像机和IMU数据流在时间上保持一致。td可以是正值或负值。 如果摄像机序列的等待时间比IMU序列的等待时间长,则td为负值。否则,td为正值。

图2.在图像平面上的特征速度示意图。 Ik和Ik + 1是两个连续的图像帧。 [ukl,vkl]和[uk + 1l,vk + 1l]分别是在图像平面Ik和Ik + 1上的要素2D观察。 假定相机在短时间段[tk,tk + 1]中以恒定的速度从Ck移至Ck + 1。 因此,我们大概认为特征l在短时间内也在图像平面上以恒定速度Vkl移动。

B. 图像平面上的特征速度

为了使摄像机和IMU数据流在时间上保持一致,应根据td向前或向后移动摄像机序列。我们没有转移整个摄像机或IMU序列,而是专门转移了时间轴上的要素观察。为此,我们引入了特征速度来建模和补偿时间未对准。

在很短的时间段(几毫秒)内,相机的运动可以视为恒速运动。因此,特征在短时间内在图像平面上以近似恒定的速度移动。基于此假设,我们可以计算特征在图像平面上的速度。

如图2所示,Ik和Ik + 1是两个连续的图像帧。 假设照相机在短时间段[tk,tk + 1]中以恒定的速度从Ck移至Ck+1。因此,我们大约认为特征l在这个短时间段内也在图像平面上以恒定速度Vkl移动。速度Vkl计算如下:

其中[ukl,vkl]和[uk+1l,vk+1l]分别是图像平面Ik和Ik+1上的特征2D观测。

C. 视觉因素与时间偏移

在经典的稀疏视觉SLAM算法中,视觉测量被公式化为成本函数中的(重新)投影误差。我们通过添加新变量时间偏移量来反映经典(重新)投影误差。 特征有两个典型的参数化。一些算法将特征参数化为其在全局框架中的3D位置,而其他算法将特征参数化为相对于某个图像帧的深度或反深度。在下文中,我们分别使用这两种参数化将时间偏移建模为视觉因子。

1)3D位置参数化:将该功能参数化为全局框架中的3D位置(Pl=[xl,yl,zl] T)。传统上,将视觉测量公式化为投影误差,

zkl是帧k中特征l的观测值。(Rwck,Pwck)是摄像机姿势,它将特征P1从全局帧转换为本地摄像机帧。π(·)表示相机投影模型,该模型将3D特征投影到具有失真的图像平面中。

在上述公式中,通过视觉测量来限制照相机姿势(Rwck,pwck)。 它也受到IMU测量的限制。实际上,如果IMU和摄像机之间存在时间未对准,则IMU约束与时域中的视觉约束不一致。 换句话说,我们应该向前或向后移动摄像机序列,以使摄像机和IMU数据流在时间上保持一致。 我们没有转移整个摄像机或IMU的顺序,而是在时间轴上转移了特征的观测值。 新的表述如下:

Vkl是要素在图像平面上的速度,取自公式2. td是时间偏移量的未知变量,它会在时域中移动要素的观测。通过优化td,我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

2)深度参数化:还可以将特征参数设置为相对于图像帧的深度或反深度。 我们以图像i中的深度λi为例。从图像i到图像j的传统重投影误差写为:

首先将特征l投影到全局框架中,然后再投影到局部相机框架j中的图像平面上。 残差是观测值和反投影位置之间的位移。与公式4相似,我们考虑了时间偏移量td

图3描述了重新投影过程。 虚线表示没有时间偏移建模的传统重投影过程。 实线表示建议的重新投影,其中考虑了时间偏移。黄线表示IMU约束。IMU约束与传统的重投影约束不一致。通过优化td,我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

 

图3.重投影过程示意图。 虚线表示没有时间偏移建模的传统重投影过程。 实线表示提出的重新投影,该重新投影将时间偏移考虑在内。 黄线表示IMU约束。 IMU约束与传统的重投影约束不一致。 通过优化td,我们可以在时域中找到与IMU约束相匹配的最佳相机姿态和功能观察。

D. 时间偏移优化

通过利用上述视觉因素,我们可以轻松地将时间校准功能添加到典型的基于视觉惯性优化的框架中,例如[13,16,23]。在这些框架中,视觉惯性定位和映射被公式化为将视觉和惯性测量紧密结合的非线性优化问题。如图4所示,几个摄像机框架和IMU测量被捆绑在一起。捆绑包的大小通常限于受限的计算复杂性。本地捆绑包调整(BA)共同优化摄像机和IMU状态以及功能位置。

图4.视觉惯性定位和制图问题的图示。我们将多个相机框架和IMU测量值捆绑在一起进行维护。通常限制束大小以减少计算复杂性。本地捆绑调整(BA)共同优化摄像机和IMU状态以及功能位置。

 

我们可以轻松地将提议的视觉因素(III-C)添加到这种框架中。具体来说,整个状态变量会增加时间偏移量,这些时间偏移量定义为:

其中第k个IMU状态由全局框架中的位置Pwk,速度Vwk,方向Rwk和局部主体框架中的IMU偏差ba,bg组成。 通过全局帧中的3D位置或相对于特定图像帧的深度来参数化特征P1。

整个问题被表述为一个包含IMU传播因子,重投影因子以及某个先验因子的成本函数。 因此,我们使用拟议的视觉(III-C)因子来实现时间偏移校准,

eB(zkk+1,X)是来自IMU传播的误差项。 B是所有IMU测量值的集合。 eC(zjl,X)是建议的视觉(重新)投影误差,其中包括时间偏移量变量。 C是在图像帧中至少观察到两次的特征集。误差由它们的逆协方差P加权。{ep,Hp}是来自先验知识和边缘化的先验信息。优化包中仅保留少量测量和状态,而其他测量和状态则被边缘化并转换为先验。 非线性最小二乘成本函数可以使用高斯-牛顿法进行有效地优化。

E. 时间补偿

每次优化后,我们通过移动后续视觉流的时间戳来补偿时间偏移,如t0 cam = tcam + td。 然后,系统随后在补偿的视觉测量值和惯性测量值之间估算δtd。  δtd将在后续数据流中迭代优化,并将收敛为零。 随着时间间隔δtd的减小,我们的基本假设(特征在较短的时间间隔内在图像平面上以恒定的速度移动)越来越合理。即使开始时有很大的时间偏移量(例如几百毫秒),该过程也会逐步补偿它。

4 实验结果

......

 

论文名:

Online Temporal Calibration for Monocular Visual-Inertial Systems(Tong Qin and Shaojie Shen).pdf

代码:

https://github.com/HKUST-Aerial-Robotics/VINS-Mono

### 回答1: Temporal Ensembling是一种半监督学习方法,它使用了时间上的一致性来提高模型的性能。该方法通过对未标记数据进行预测,并将预测结果与之前的预测结果进行平均,从而获得更加稳定和准确的预测结果。同时,该方法还使用了一个噪声注入技术来增加模型的鲁棒性。该方法已经在图像分类、语音识别等领域取得了很好的效果。 ### 回答2: Temporal Ensembling是一种半监督学习方法。它主要通过使用同一批数据的多个副本,在单批数据上进行迭代学习来提高预测模型的准确性。这种方法能够很好地利用已有数据中的潜在信息,同时也能避免因缺乏大量标注数据而损失准确性的问题。 Temporal Ensembling的核心思想是使用模型的历史预测结果来生成新的虚拟标签。在训练期间,模型不断地更新,同时不断生成新的“标注”,并将这些新的“标注”与原始标注数据一起训练。这样,模型可以从大量带有“标注”的数据中学习并逐渐提高其准确性。 Temporal Ensembling方法在许多学习任务中都展现出优良的性能,比如图像分类、物体识别、图像分割、语音识别等。其中,与其他半监督学习方法相比,Temporal Ensembling在半监督图像分类中的性能最为出色。 尽管Temporal Ensembling的性能非常出色,但是其中的一些问题仍需要解决。 首先,这种方法需要大量的GPU计算力和存储空间,并且需要复杂的算法设计。其次,由于该方法是基于生成虚拟标签的,因此,如果模型在未来预测错误而不正确地生成了虚拟标签,那么可能会产生负面影响。 总之,Temporal Ensembling是一种有效的半监督学习方法,其取得的结果显示出高水平的准确性。与其他方法相比,Temporal Ensembling具有更好的稳健性及效能。也因此,它在深度学习领域中被广泛应用。 ### 回答3: Temporal Ensembling是一种半监督学习技术,可以用于训练深度神经网络。该技术旨在利用未标记的数据来改善模型的泛化能力。在传统的监督学习中,我们需要分类器预测每个样本的标签,并将其与真实标签进行比较以计算损失函数。然而,在许多现实世界的场景中,标记数据的数量通常是有限的,这使得监督学习变得更加困难和昂贵。相反,在半监督学习中,我们将未标记的数据与标记数据结合在一起进行训练。 Temporal Ensembling的实现是基于一个假设,即相似的输入应该具有相似的潜在表示形式。具体来说,该技术通过在连续训练周期中收集了单次训练中的模型预测,通过将这些预测结果整合成一个移动平均版本来构建模型共识。这可以看作是把模型的预测提供给下一个周期的训练,让模型逐渐整合起来,在连续的训练周期中收集了对训练数据更准确的表示。在训练过程中,我们不仅使用真实标签来计算损失函数,还将平均预测意味着的交叉熵添加到损失函数中。这使得模型学习时能够尽可能地匹配模型共识中的数据。 虽然在许多情况下,半监督学习可以增加模型学习任务的效果,但它依赖于许多因素,包括未标记样本的数量、分布和标记样本之间的相似性。使用Temporal Ensembling时,需要做好降噪处理,适当选择数据能够真正提高该技术效果。此外,需要注意的是,Temporal Ensembling只能在没有过度拟合数据集时才能有效,因为此技术基于模型共识构建。在实际应用中,可以将Temporal Ensembling与其他半监督学习技术结合使用,以提高模型性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值