CNN-SVO 论文阅读

最新推荐文章于 2024-11-18 17:12:19 发布

KrMzyc

最新推荐文章于 2024-11-18 17:12:19 发布

阅读量1.3k

点赞数 8

分类专栏： SLAM 视觉里程计文章标签： cnn 论文阅读人工智能

本文链接：https://blog.csdn.net/KrMzyc/article/details/136460580

版权

SLAM 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

视觉里程计

4 篇文章 0 订阅

订阅专栏

本文提出CNN-SVO，通过单图像深度预测降低SVO的深度不确定性，优化特征匹配，从而实现更快的映射点收敛和在复杂光照条件下的稳定性能。与传统方法相比，CNN-SVO在运行时间和光照不变性方面具有优势。

摘要由CSDN通过智能技术生成

论文链接

CNN-SVO: Improving the Mapping in Semi-Direct Visual Odometry Using Single-Image Depth Prediction

0. Abstract

与现有的VO和V-SLAM算法相比，半直接视觉里程计（SVO）具有两个主要优势，可以实现最先进的帧速率相机运动估计：直接像素对应和概率映射方法的高效实现

根据单图像深度预测网络的深度预测，对特征位置深度的均值和方差进行初始化，从而改进了SVO映射
通过显著降低初始化地图点的深度不确定性（即，以深度预测为中心的小方差）

其好处是双重的：视图之间的可靠特征对应关系和快速收敛到真实深度以创建新的地图点

1. Intro

当前帧和前帧之间的匹配特征是解决视觉里程计（VO）和视觉同步定位和映射（V-SLAM）的最重要步骤之一。主要有两种特征匹配方法

间接方法：需要特征提取、特征描述和特征匹配。这些方法依赖于匹配中间特征（例如描述符），并且在具有弱梯度和无纹理表面的图像中表现不佳，其中描述符无法匹配
直接方法：不需要特征描述，它们直接对像素强度进行操作;因此，可以对任意像素（例如，角落、边缘或整个图像）进行采样和匹配，即使在纹理较差的图像中也能实现可靠的特征匹配

半直接视觉里程计（SVO）是一种混合方法，它结合了直接和间接方法的优点来求解结构和运动，提供了一种有效的概率映射方法，为直接相机运动估计提供可靠的映射点。但 SVO 的一个主要限制是地图点初始化时具有较大的深度不确定性

Fig. 1 (a) 由于沿极点线的搜索范围较大，SVO对具有较大深度不确定性的地图点进行初始化会导致错误的特征对应关系

本文工作

从单图像深度预测神经网络[7]初始化具有深度先验的新地图点(即以预测深度为中心的小方差)，从而大大降低识别相应特征的不确定性

Fig. 1 (b) CNN-SVO 示意图
改进的SVO映射，本文称之为CNN-SVO，能够处理具有挑战性的照明条件，这要归功于估计深度图的照明不变性

Fig. 2 CNN-SVO: HDR环境下的摄像机运动估计。(左)单图像深度预测模型展示了估计深度图时的光照不变性，在连续五帧的样本序列上用颜色编码的重投影地图点显示了重投影地图点到那些用于相机运动估计的帧上(最好以颜色观看)。注意CNN-SVO只预测关键帧的深度图。(右)由CNN-SVO1生成的相机轨迹(用线表示)和洋红地图点

2. Methods

2.1 SVO 算法简述

首先解释本文其余部分使用的术语。特征是FAST角点检测器提取的图像中的一个二维点。将特征对应称为图像小块的匹配。地图点是从深度已知的特征位置投影出来的3D点

SVO 包含两个并行运行的线程：跟踪线程和映射线程

跟踪线程：通过最小化参考图像补丁(地图点的反向投影)与新帧中以重投影位置为中心的图像补丁之间的光度残差来获得新帧的相机姿态
映射线程：通过两个过程创建新的地图点：初始化具有大深度不确定性的新地图点和使用深度过滤器更新地图点的深度不确定性;如果地图点的深度不确定度较小，则在地图中插入一个新的地图点

给定两帧(其中一帧为关键帧)的相机姿态，通过在非关键帧中沿极线查找特征对应，然后通过三角剖分恢复深度，可以获得特征的深度

由于离群点匹配的发生是不可避免的，因此将深度滤波器建模为二维分布：第一维描述深度的概率分布，第二维建模为先验概率

在本文中着重于改进 SVO 中的映射

2.2 改进了SVO映射中映射点的初始化

SVO映射在具有较大不确定性的参考关键帧中初始化新的地图点，并将其平均深度设置为参考帧中的平均场景深度

在主要深度信息存在的地方，深度的不确定性很大，限制了映射确定地图点的真实深度的能力，其中地图点的深度变化很大。特别是，深度不确定性大带来了两个问题：在附近的帧中沿极线可能存在错误的特征对应，以及需要大量的深度测量才能收敛到真实深度

Fig. 3 CNN-SVO管道。我们的工作用CNN深度估计模块(绿色标记)增强了SVO管道，以改善SVO中的映射

添加了CNN深度估计模块(以绿色标记)，以便在选择关键帧时在地图点初始化过程中提供强深度先验-深度滤波器的初始化

给定一组三角深度测量值，使用深度滤波器的目的是将好的测量值与坏的测量值分离开来

好的测量值在真实深度周围正态分布，坏的测量值在区间 $[ρ^{\min}_i,ρ^{\max}_i]$ 内均匀分布
具体给定一组对应相同特征的三角剖分反演深度测量值 $ρ^1_i,ρ^2_i,...,ρ^N_i$ ，测量值 $ρ^N_i$ 在SVO中采用高斯+均匀混合模型建模
$p(ρ^n_i |ρ_i,γ_i) = γ_i\mathcal{N}(ρ^n_i |ρ_i,τ^2_i) + (1-γ_i)\mathcal{U}(ρ^n_i |ρ^{\min}_i,ρ^{\max}_ i) \tag{1}$
其中 $ρ_i$ 为真实逆深度， $τ^2_i$ 为逆深度方差， $γ_i$ 为内比值。假设深度逆测量值 $ρ^1_i,ρ^2_i,···,ρ^N_i$ 是独立的，真实深度逆后验的近似值可以由深度的高斯分布与内氏比的Beta分布的乘积增量计算得到：
$q(ρ_i, γ_i|a_n, b_n, µ_n, σ^2_n) = Beta(γ_i|a_n, b_n)\mathcal{N}(ρ_i|µ_n, σ^2_n)\tag{2}$
其中 $a_n$ 和 $b_n$ 为Beta分布中的参数， $µ_n$ 和 $σ^2_n$ 为高斯深度估计的均值和方差，当 $σ^2_n$ 小于某个阈值时，深度滤波器收敛到真实深度

Tab. 1 SVO算法与CNN-SVO算法参数初始化的比较。参数由场景的先验知识定义，其中 $d_{avg}$ 为参考关键帧的平均场景深度， $d_{CNN}$ 为单图像深度预测网络的深度预测， $d_{\min}$ 为参考关键帧的最小场景深度

关键的区别在于CNN-SVO使用学习到的场景深度来初始化特征的均值和方差，而不是使用参考关键帧中的平均和最小场景深度。我们的经验发现，将深度方差设置为 $\frac{1}{(6d_{CNN})^2}$ ，为带噪深度预测提供了足够的收敛空间;如果深度方差很大(例如，用一个更大的数字代替6)，我们将失去绝对尺度，因为测量中存在更多的不确定性
$\rho^{\min}_i=\mu_n+\sqrt{\sigma^2_n} \tag{3}$

$$
\rho =
\begin{cases}
0.00000001,\ \ \ \ &if\ \mu_n-\sqrt{\sigma^2_n}<0 \
\mu_n-\sqrt{\sigma^2_n},\ \ \ &otherwise
\end{cases}

\tag{4}
$$
通过单幅图像深度预测网络获得强深度先验，其好处是双重的:识别特征对应的不确定性更小，地图点收敛速度更快

Fig. 4 改进的映射策略能够提供更快的映射点收敛。洋红色线的长度表示深度不确定度。(a)初始化深度滤波器，其中SVO采用大间隔来模拟每个初始地图点的不确定性，而CNN-SVO采用短间隔;(b)三次更新后深度滤波器对地图点的深度估计;©深度过滤器在5次更新后对地图点的深度估计

3. Evaluation

将我们的方法与最先进的直接和间接方法进行了比较，即直接稀疏里程法(DSO)，半直接视觉里程法(SVO) 和无闭环的 ORB-SLAM。使用绝对轨迹误差(ATE)作为上述论文中使用的性能度量。此外，用“X”表示由于序列中间丢失跟踪而无法完成序列的方法

为了在CNN-SVO的地图点初始化中提供深度预测，我们采用了的编码器-解码器架构的Resnet50变体，该架构已经在Cityscape数据集上进行了训练

在KITTI原始数据(不包括KITTI Odometry Sequence 00-10)中对50个epoch的立体图像进行网络微调

为了产生一致的结构信息，即使在过度曝光或曝光不足的图像上，图像的亮度在整个训练过程中都是随机调整的，产生照明变化的效果

为了对其他数据集的深度预测进行缩放，可以将推断的深度流乘以当前焦距流与训练焦距流的比值，即缩放后的深度流
$d_{current}=\frac{f_{current}}{f_{trained}}d_{trained}\tag{5}$
将一帧中跟踪特征的最大和最小数量分别设置为 200 和 100。关于深度滤波器，我们修改 SVO 以使用 5 个先前关键帧来增加深度滤波器中的测量数量。还在评估过程中启用捆绑调整

3.1 准确率评估

Tab. 2 KITTI 数据集上的绝对关键帧轨迹 RMSE（以米为单位）

Tab. 3 Oxford Robotcar 数据集上的绝对关键帧轨迹 RMSE（以米为单位）

本文的系统能够跟踪除 KITTI Sequence 01 之外的所有序列，因为无法准确匹配具有重复结构的场景中的特征。

将 CNN-SVO 的稳健跟踪归因于其将连续帧中的特征与附加深度信息进行匹配的能力，即使图像曝光过度或曝光不足也是如此

Fig. 5 ORB-SLAM（无回环）、DSO 和 CNN-SVO 生成的相机轨迹的定性比较。 (a) KITTI 序列 00 和 08； (b) 牛津机器人汽车序列 2014-05-06-12-54-54 和 2014-06-25-16-22-15。 SVO 未包含在该图中，因为它由于跟踪和建图失败而无法完成轨迹

在图5(b)中，CNN-SVO在序列2014-05-06-12-54-54中的轨迹末端附近产生了一条S状曲线，这是由摄像机前面移动的汽车引起的