《论文阅读》D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry-CSDN博客

本文链接：https://blog.csdn.net/qq_43310834/article/details/120084307

D3VO是一个结合深度估计、姿态估计和深度不确定性估计的单目视觉里程计框架。它通过自监督网络学习深度、姿态和不确定性，并利用光度误差和拉普拉斯分布进行优化。该方法在KITTIOdometry数据集上进行了评估，提高了单目视觉里程计的精度和鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

留个笔记自用

D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry

做什么

Monocular Visual Odometry单目视觉里程计
在这里插入图片描述
相机在运动过程中连续两帧之间会存在overlap，即会同时观测到三维世界中的某些场景以及特征点。而这些场景特征点会投射到2D图片上，通过图片的对齐或者特征的匹配，可以找到前后图片上特点或patch的对应关系。利用相机的成像几何模型（包括相机参数）以及约束，可以求出两帧之间的运动信息（旋转矩阵R和平移t）。这样我们就可以得到一系列的相机相对变化矩阵，从而可以推出相机的姿态信息。

做了什么

在这里插入图片描述
这里提出了一个结合了深度（D），深度姿态（T），深度不确定性估计（Σ）的单目视觉里程计框架

怎么做

在这里插入图片描述
整体框架分为两个部分，一个是深度网络构成的信息预测部分，另一个是利用D3VO的视觉里程计部分
首先是第一部分，也就是图中的

这里构造的是一个自监督网络，目的是为了学习得到前面所述的几种预测信息，深度D，深度姿态T，深度不确定性估计Σ 在这里插入图片描述
首先是深度D估计，这里训练用自监督训练方式，V是图像I_t的像素集合，I_>t’是I_t的左右帧图像还有另一边图像（原I_t用的是左图，这里另一边就是右图）
这里的左右帧图像时利用网络得到的深度D在源图像I_t上计算得到的，而左右图的转换是数据集给的参数
简单来说就是通过这个源输入图，利用网络得到的参数对原输入图进行计算得到理想中的其他状态，然后再最小化二者之间的误差
接下来是这里的r函数
在这里插入图片描述
通常的做法都是这样的光度误差函数，但由于SSIM和L1计算会对光度不变的情况下进行过度曝光，这里构造了一个亮度变换参数

简单来说这里就是为了让目标图像和原图像I的亮度相似，而不会出现逐元素曝光现象
最后将上面的式子改写成
在这里插入图片描述

至此，得到了深度D
然后是深度不确定性估计Σ

这里的思想就是直接预测每个像素的光度后验概率分布，这个参数是为了模拟某些本身自带光度的物体或者曲面而引起的光度差异，这里假设的分布是拉普拉斯分布，主要的思想是基于GT的y来预测每个像素的后验概率分布
然后将这个和前面的合并，在图上也能看到二者是通用网络的
在这里插入图片描述
Σ_t就是图I_t的深度不确定性估计图，一个mask map

然后是最终loss

在前面的基础上加一个正则化，然后再用多种尺度的图像进行训练

L_smooth是通过depthnet预测的单个输入的D，D_s（另一边的深度图）、Σ，对这个D进行平滑LOSS
总的来说
在这里插入图片描述
左边输入单边单帧图像I_t，通过光度自监督误差和不确定性估计的DepthNet得到单张深度图和深度估计图，然后右边是PoseNet，通过两帧输入预测位姿转换T和光度参数ab（用在光度调差误差那），顺便一提的是，两个网络都是Unet作为的baseline
至此，第一部分就得到了深度图D，深度确定性估计mask Σ，两帧的位姿转换T
然后是第二部分，里程计计算部分，利用这些信息进行窗口化整理，净化位姿转换效果
首先提出了一个总光度能量
在这里插入图片描述
F是所有的关键帧集合，p就是关键帧上的点， obs§是一组关键帧（局部窗口），E_pjp投影到关键帧j上时的加权光度能量项
所以接下来就是定义这个E_pj

N_P是点p的邻域，a和b是两个光度参数，|| · ||γ是huber算子，I就是图像，而I[]就是图像上的点p，然后是这里的权重w
在这里插入图片描述
这里是为了补偿某些特殊的噪声情况，但是除了这种局部窗口的情况，还可以依赖于全局信息，所以又定义了一个全局方式

也就是这里的E_p，T_s是从左至右的转换内参，这项希望的hi优化的狠毒d_p与网络的误差最小
最后，与传统VO方法不同，这里使用连续帧之间的姿态预测值来初始化前端，而不是初始化直接图像对齐
在这里插入图片描述
这里的Log计算是SE(3)->R⁶，一个常见的方式
然后优化总能量函数