CVPR2020——D3VO论文阅读

最新推荐文章于 2023-01-08 00:35:40 发布

屠龙小道

最新推荐文章于 2023-01-08 00:35:40 发布

阅读量2.5k

点赞数 2

分类专栏：计算机视觉 SLAM 深度学习文章标签：计算机视觉深度学习 slam

本文链接：https://blog.csdn.net/ZEroJAVAson/article/details/106296756

版权

D3VO是一种利用深度学习的深度、位姿和不确定度预测来提升单目视觉里程计性能的方法。通过自监督网络，D3VO解决了尺度漂移和光照不一致问题，提高了单目深度估计和视觉里程计的准确性。在KITTI和EuRoC MAV数据集上，D3VO表现出优于传统方法的性能，并能与先进的立体和LiDAR里程计相媲美。

摘要由CSDN通过智能技术生成

文章标题：D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry

摘要：

我们提出的D3VO单目视觉里程计框架从三个层面上利用了深度学习网络，分别是：利用深度学习的深度估计，利用深度学习的位姿估计，以及利用深度学习的不确定度估计。首先我们提出了一个在双目视频上训练得到的自监督单目深度估计网络。特别的，它利用预测亮度变换参数，将训练图像对对齐到相似的亮度条件上。另外，我们建模了输入图像像素的亮度不确定性，从而进一步提高深度估计的准确率，并为之后的直接法视觉里程计提供一个关于光照残差的可学习加权函数。评估结果显示，我们提出的网络超过了当前的sota自监督深度估计网络。D3VO将预测深度，位姿以及不确定度紧密结合到一个直接视觉里程计方法中，来同时提升前端追踪以及后端非线性优化性能。我们在KITTI以及EuRoC MAV数据集上评估了D3VO单目视觉里程计的性能。结果显示，D3VO大大超越了传统的sota视觉里程计方法。同时，它也在KITTI数据集上取得了可以和sota的stereo/LiDAR里程计可比较的结果，以及在EuRoC MAV数据集上和sota的VIO可比较的结果。

一、引入：

深度学习已经扫荡了计算机视觉领域中的很多领域，不仅有高层次的任务，如目标分类，检测以及分割，也包括低层次任务，如光流估计，兴趣点检测以及表述。然而，在SLAM或者是视觉SLAM领域，这个领域主要从图像序列中估计相机的相对位姿，该领域中，传统的基于几何的方法仍然占据主导。虽然基于单目的方法有着低硬件以及标定成本的优势，但他却由于尺度漂移以及低鲁棒性，在性能方面落后于Stereo SLAM以及VIO。最近有很多工作着力从结合深度神经网络方面来解决这些问题。研究表明，通过结合单目深度估计网络，单目VO的性能得到了很大提升，因为深度神经网络能够从大量数据中学习到度量尺度一致的深度信息先验。

然而，这种方式，仅有限的使用了深度神经网络。最近，关于自监督及无监督的单目深度估计网络的最新进展表明，相邻的单目帧位姿可以随深度一起预测。由于利用深度神经网络的位姿估计展现了很高的鲁棒性，那么就提出了一个问题：能否利用基于深度网络的位姿估计来提升传统的VO？另一方面，因为SLAM/VO本质上是一个状态估计问题，其中不确定度扮演着很重要的地位，同时也有很多基于学习的方法开始估计不确定度。那么还有一个问题是：我们如何将这种不确定度的预测融入到基于优化的VO中呢？

在本文中，我们提出的D3VO作为单目直接法视觉VO，从三个层面上利用了自监督单目深度估计网络：深度，位姿以及不确定度估计，如图1所示。

为了到我们的目的，我们首先提出了一个在双目视频上训练的自监督网络。提出的自监督网络利用DepthNet部分从单帧图像中预测深度，利用PoseNet部分从相邻帧图像中预测位姿。利用修正的基线和预测的位姿，通过最小化静态立体翘曲和时间翘曲引起的光度误差，将两个网络联系在一起。通过这种方式，时间信息就被融入到了深度预测训练中，从而提升估计精度。为了解决训练图像对之间光照不一致的问题，我们的网络实时预测了训练过程中对源图像和目标图像进行亮度匹配的亮度变换参数。对EuRoC MAV数据集的评估表明，所提出的亮度变换显著提高了深度估计的精度。为了将deep depth集成到VO系统中，我们首先用有着度量尺度的预测的深度来初始化每个新的3D点。然后，我们采用(DVSO)中提出的virtual stereo term，将预测的位姿纳入非线性优化中。DVSO使用半监督的单目深度估计网络，依赖于从sota的Stereo VO系统中提取的辅助深度，而我们的网络只使用Stereo视频，没有任何外部深度信息监督。

虽然光照变化被明确地建模，但它并不是唯一可能违反亮度恒定假设的因素。其他因素，如非朗伯表面、高频区域和移动的物体，也会破坏这个假设。受最近深度神经网络关于随机不确定性的研究的启发，该网络将光度不确定性估计为以输入图像为条件的预测方差。因此，由可能违反亮度恒定假设的像素产生的误差被向下加权。学习到的光度残差的权重也促使我们将其合并到直接的VO中——因为自监督训练流程和direct-VO有着类似的光度目标,我们建议使用学到的权重来取代在传统的direct-VO中使用的光度残差权重函数，其通常是人工经验设定的，或者只用来解释特定算法的内在不确定度的。

鲁棒性是VO算法设计中最重要的因素之一。然而，传统的单目视觉VO在面对弱纹理区域或快速运动时缺乏鲁棒性。典型的解决方案是引入惯性测量单元（IMU）。但这增加了校准工作，更重要的是，在恒定速度下，IMUs不能在恒定速度下提供度量尺度。为了提高单目VO的鲁棒性，我们提出将来自深度网络的预估位姿合并到前端跟踪和后端非线性优化中。对于前端跟踪，我们用网络估计的位姿代替匀速运动模型的位姿。此外，估计的位姿，除了直接图像对齐，也被用作平方正则化。在后端非线性优化中，我们提出了一个与直接VO的光度能量项共同最小化的位姿能量项。我们在KITTI[25]和EuRoC上评估了所提出的单目深度估计网络和D3VO。我们在单目深度估计和摄像机跟踪方面都达到了sota性能。特别地，通过结合deep depth, deep uncertainty and deep pose，D3VO在KITTI上取得了与最先进的stereo/LiDAR 方法相媲美的结果，并且在EuRoC MAV上也取得了与最先进的VIO方法相媲美的结果，而这是一种单目方法。

二、相关工作：

基于深度学习的单目深度估计

监督学习在单目深度估计任务上展现了强大的性能。Eigen et al. [14, 15] 提出使用多尺度的CNNs，来直接从单个输入图像回归像素级的深度图。Laina et al. [43]提出了一种鲁棒的损失函数来提升估计精度。Fu et al. [24]将单目深度估计网络重构为一个有序回归问题，并取得了较好的性能。最近的研究开始以一种自监督和无监督的方式来解决这个问题，即使用光度误差来学习深度图[27,28,49,73,81,82,82,86]，并采用可微插值[32]。我们的自监督深度估计网络是以MonoDepth2 [26]为基础，并通过引入预测亮度变换参数和光度不确定度对其进行了扩展。

基于深度学习的不确定度估计

深度学习的不确定性估计最近在[35,36]中进行了研究，提出了两种不确定性。Klodt et al. [40]提出利用随机不确定度概念来估计光度以及深度的不确定度，从而提升深度估计精度。但是，在表达光度不确定度是，他们没有考虑不同图像间的光照变化，这其实是可以被显式建模的。我们的方法以亮度对齐图像为条件，对光度不确定度进行预测，从而实现更好的光度不确定度估计。此外，我们也试图更好地利用我们已知的不确定性，并建议将其纳入传统的VO系统[16]中

基于深度学习的VO/SLAM

端到端深度学习神经网络已经被开发出来，可以直接预测图像之间的相对姿态[70,75，85]以监督学习模式，或无监督学习[46,73,82,86]。除了位姿估计外，CodeSLAM[2]还通过与相机姿态共同优化稠密几何的学习先验，实现了稠密重建。但在位姿估计精度方面，所有端到端方法都不如传统的基于立体视觉和惯性的VO方法。基于深度单目深度估计的成功，一些研究将预测的深度/视差图集成到单目VO系统中[68,78]，以提高性能并消除尺度漂移。CNN-SLAM[68]将监督深度神经网络预测的深度融合到LSD-SLAM[17]中，利用贝叶斯滤波对深度图进行细化，在室内环境中取得了优异的性能[29,64]。其他文献[10,67]探讨了深度神经网络在基于特征的方法上的应用，其中[34]采用生成式对抗网络(GANs)作为一种图像增强方法，提高了VO在弱光下的鲁棒性。与我们的工作最相关的是(DVSO)。DVSO提出了virtual stereo term，将深度估计从半监督网络输入到direct-VO管道中。特别是，DVSO的表现大幅优于其他单目VO系统，甚至可以达到与最先进的立体视觉测程系统相当的性能[53,74]。DVSO仅仅利用了深度，而我们提出的D3VO在多个层面上利用了深度神经网络的power，从而将更多的信息整合到直接的VO管道中

三、方法：

首先，我们介绍了一种新型的自监督神经网络，它可以预测深度，位姿以及不确定度。该网络还估计仿射亮度转换参数，以自监督的方式对齐训练图像的照度。光度不确定度是根据每个像素可能的亮度值[35,40]的分布来预测的。此后，我们将介绍D3VO作为一个direct-SLAM框架，将预测的属性合并到跟踪前端和BA后端。