论文阅读： DF-VO: What Should Be Learnt for Visual Odometry

最新推荐文章于 2024-04-16 10:09:20 发布

waittingforyou12

最新推荐文章于 2024-04-16 10:09:20 发布

阅读量1.5k

点赞数 3

分类专栏：深度学习视觉slam 论文阅读文章标签：算法

本文链接：https://blog.csdn.net/waittingforyou12/article/details/117369828

版权

视觉slam 同时被 3 个专栏收录

6 篇文章 1 订阅

订阅专栏

深度学习

3 篇文章 0 订阅

订阅专栏

论文阅读

1 篇文章 0 订阅

订阅专栏

1. Abstract

Multi-view based methods 在动态环境与低纹理环境下性能较差。单目同时suffer from 尺度漂移问题（误差累计）。

最近的研究证明深度神经网络能够通过自监督的方式学习深度图和相对位置关系。一个训练较好的网络可以在很长时间内维持尺度一致性，但是其精度仍是弱于传统的SLAM方法。

作者认为其核心原因在于很多深度网路忽略了多视觉问题中其内在的几何关系。因此作者通过结合结合深度学习与多视觉几何设计出鲁棒的VO系统，DF-VO。其贡献点在于：

提出了从deep flow上进行高质量采样correspondences的方法，结合视觉几何模块，可以较为准确的恢复相机位姿。
通过aligning 三角化恢复的深度与deep depths（同时考虑了动态场景问题），解决了尺度漂移问题。

论文相关代码已经开源：https://github.com/Huangying-Zhan/DF-VO

2. Introduction

位姿估计： Data Association 对于求解VO问题非常重要（特征匹配的精度与空间多样性）。In contrast, we propose to extract accurate correspondences diversely from the dense predictions of an optical flow network using the consistency constraint between bi-directional flows。Then the selected correspondences are fed into geometry-based trackers (Epipolar Geometry based tracker and Prospective-n-point based tracker) for accurate and robust VO estimation。
尺度估计：深度学习方式通过 Stereo_based traning 或者 Scale-consistency constraint 保持尺度一致性。参考[1][2][3]。

3. Related work

3.1 Geometry based VO

传统的VO方式，ORB-SLAM，DSO，等。

3.2 Deep Learnign for VO

4. Prelimilaries

4.1 Epipolar constraints

对极几何约束，Essential and Fundamental matrix。但是无法解决一些特殊运动和场景结构导致的模型退化问题。

运动没有平移量
场景结构为平面（F矩阵构建的线性方程之间线性相关）

以上问题会造成求解F矩阵数值不稳定，同时无法恢复尺度，具有尺度不确定性。

4.2 Perspective-n-Points

基于3D与2D之间的匹配对应，求解相机位姿，具体不在赘述。

5. DF-VO：Depth and Flow for Visual Odometry

5.1 System Overview

系统框架如上图所示，训练两个子网络，第一个网络用于获得稠密的前向后向稠密光流，以此建立2D-2D的匹配关系；第二个网络用于估计单目深度，结合稠密光流获得的匹配关系，建立3D-2D的匹配。分别基于2D-2D以及3D-2D匹配关系，构建E-tracker 和 PnP-tracker用于位姿估计。注意到由于基于对极几何的E-tracker位姿估计方式不能恢复真实尺度，因此2D-2D位姿估计子模块还额外添加了尺度恢复子模块。

5.2 Deep predictions

Optical flow: 光流估计深度网路，输入图像对 $(I_i,I_j)$ ,估计光流可以获取 $i$ 图像上像素点在 $j$ 图像上的对应关系。光流估计深度网络可以到达非常高的平均精度，但并不是所有的像素点都达到这么高的精度，因此筛选较高精度的对应关系。

Single View Depth: 估计单目深度建立3D-2D关系，单目深度估计准确度不够，大概10%的相对误差，因此主要还是利用E-tracker进行位姿估计，PnP主要是在E-tracker 失败的时候进行辅助。

5.3 Correspondence Selection

利用稠密光流获得的2D-2D匹配进行位姿估计将非常耗时，而且可能包含很多错误的匹配（eg. 动态物体，遮挡，out-of-region等问题），最好的方式是从稠密图中随机或者平均的筛选质量较高的匹配关系。作者为了过滤外点并且找到高质量的光流匹配，提出了bi-directional flow consistency 的筛选策略。定义flow consistency:

$C = -F_i^j-w(F_j^i,p_f(F_i^j))$ ，其中

$w(F_j^i,p_f(F_i^j)) = F_j^i[x+F_i^j[x]]$

即将左图的某一像素点 $x$ 根据正向预测光流预测其在右图的对应位置 $x+F_i^j[x]$ ，然后再将该预测点根据反向光流预测其在左图的像素位置 $F_j^i[x+F_i^j[x]]$ 。根据双边光流一致性选择原则，找出最好的N个匹配点。

Local best-K selection: 为了让筛选的点对均匀的分布在图像中，将图像划分为 $M*M$ 的网格，选择每个网格中一致性最好的 $K$ 个匹配点对。

优势：(1) increasing location diversity as described; (2) speeding up correspondence selection process since part of flows are rejected in the first place and sorting flow inconsistency is performed in a local image region instead of the whole image region。

之后就是利用匹配点对求解Essential Matrix，进而分解获得R与t。（recorved motion is up-to-scale）

5.4 Scale Recovery

Simple alignment: 作者使用单目预测的深度作为参考去恢复真实尺度信息。当根据对极几何恢复 $R,t$ 后，可以根据位姿关系和匹配点对对3D点进行三角化得到 $D_i^{'}$ ,因此直接将 $D_i^{'}$ 与单目深度预测的 $D_i$ 进行对齐，可以得到较粗的尺度估计。利用网络预测深度信息有两个优势：

Depth CNN 预测的结构是尺度一致的。
尺度漂移一般由在三角化新的地图点时引起的，在这个过程中我们不产生新的地图点，而仅仅是利用网络进行尺度恢复。

Iterative alignment: 基于Simple alignment的尺度对齐方式可以满足大多数常规场景，但是在动态场景，光流预测不佳，或者深度估计不可能在每一个像素都非常准确，因此采用迭代优化的方式进行尺度的求解。假设左图某一点的深度预测为 $D_i$ ,根据对极几何求解的位姿 $T_0$ (注意这个位姿是尺度不确定的)可以获取到其在右图上的对应像素点，因此可以计算其光流 $F_{rigid}$ 为：