每天一篇论文 345/365 D3VO: Deep Depth, Deep Pose and Deep Uncertaintyfor Monocular Visual Odometry

最新推荐文章于 2024-02-23 21:16:00 发布

流浪机器人

最新推荐文章于 2024-02-23 21:16:00 发布

阅读量2k

点赞数 1

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/104889488

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

D3VO: Deep Depth, Deep Pose and Deep Uncertaintyfor Monocular Visual Odometry

参考
 What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

摘要

我们提出了一个新的单目视觉里程测量框架D3V O，该框架在三个层次上利用深度、姿态和不确定性估计的深度网络。我们首先提出了一种新的无需外部监控的立体视频单目深度估计网络。特别地，它通过预测亮度变换参数将训练图像对对齐到相似的照明条件中。此外，我们还对输入图像上像素的光度不确定性进行了建模，提高了深度估计的精度，并为直接（无特征）视觉里程测量中的光度残差提供了学习的加权函数。评价结果表明，该网络的性能优于现有的自监督深度估计网络。D3V O将预测的深度、姿态和不确定性紧密地结合到一种直接的视觉里程测量方法中，既提高了前端跟踪性能，又提高了后端非线性优化性能。我们在KITTI odometry基准和EuRoC MAV数据集上，用单目视觉里程计评估D3V O。结果表明，D3V O方法在很大程度上优于目前最先进的单目VO方法。它还获得了与KITTI上最先进的立体声/激光雷达里程表和EuRoC MAV上最先进的视觉惯性里程表相当的结果，同时仅使用一个摄像头。

贡献

方法

我们首先提出了一个纯自监督的立体视频训练网络。该自监督网络利用深度网预测单个图像的深度，利用PoseNet预测相邻两帧图像之间的姿态。两个网络通过最小化由校正基线的静态立体扭曲和使用预测姿势的时间扭曲引起的光度误差来桥接。这样，在深度训练中加入时间信息，可以得到更精确的估计。为了解决训练图像对间光照不一致的问题，我们的网络预测了飞行训练过程中源图像和目标图像亮度匹配的亮度变换参数。
在这里插入图片描述

本文提出可以预测深度、姿态和不确定性。该网络还估计仿射亮度变换参数，以自监督方式对齐训练图像的亮度。基于每个像素的可能亮度值的分布预测光度不确定度。D3VO作为一个直接的视觉里程计框架，它将预测的属性合并到跟踪前端和光度束调整后端。

深度估计 ：自监督训练是通过最小化当前图像和静态立体图像之间的光度重投影误差来实现的在这里插入图片描述

亮度转换参数：相机曝光调整引起的图像强度变化可以用2个参数的仿射变换来表示
于是可以将等式1进行重写：

其中，at→t′和bt→t′′是将左侧图像ItIt对齐到It′It′的参数。注意，这两个参数都可以在没有任何监督信号的情况下以自我监督的方式进行训练。
在这里插入图片描述
光度不确定性
仅建模亮度变化参数不足以应对光度不变性假设的所有失效情况，其他情况，如非朗伯曲面和运动物体，是由相应物体的固有性质引起的，这些性质对于分析建模来说有一定影响。由于这些方面可以看作是观测噪声，其主要的思想是基于ground-true label y来预测每个像素的后验概率分布：
在这里插入图片描述
注意，对于方差σσ并不需要真实的标签label来训练。预测不确定性允许网络根据数据输入调整残差的权重，这样有利于提高模型对噪声数据或错误标签的鲁棒性[文献33]。