DeepVO：通过深度循环卷积神经网络实现端到端的视觉里程计

huarzail

已于 2023-07-27 11:31:04 修改

阅读量1.3k

点赞数 3

分类专栏： VO(Visual Odometry) 文章标签：深度学习人工智能机器学习

于 2023-07-16 18:23:03 首次发布

本文链接：https://blog.csdn.net/huarzail/article/details/131748390

版权

VO(Visual Odometry) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文提出了一个基于深度递归卷积神经网络（RCNN）的端到端单目视觉里程计（VO）框架，无需传统VO方法中的特征提取和模块。通过CNN学习几何特征，RNN进行顺序建模，直接从RGB图像序列估计姿态，解决了尺度恢复问题，并在KITTIVO基准测试上展示出良好性能和泛化能力。此方法为单目VO提供了新的深度学习解决方案，但也指出在某些高速或无特征场景中仍存在挑战，需要进一步的训练数据和优化。

摘要由CSDN通过智能技术生成

本文站在巨人的肩膀上，进行翻译、整理、融合，仅供学习，如有不妥，联系删除。

感谢DeepVO课题组大佬的学术贡献

--------------------------------------------------

标题:DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

作者:Sen Wang, Ronald Clark,Hongkai Wen and Niki Trigoni

来源:ICRA 2017

链接：

[1] DeepVO : Towards Visual Odometry with Deep Learning (senwang.gitlab.io)

[2] 1709.08429.pdf (arxiv.org)

文献: Wang, Sen, Ronald Clark, Hongkai Wen, and Niki Trigoni. "Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks." In 2017 IEEE international conference on robotics and automation (ICRA), pp. 2043-2050. IEEE, 2017.

Abstract

单目视觉里程计(Visual odometry，VO)是机器视觉领域一项重要的研究问题，目前大多数视觉里程计方法都是基于标准框架开发的，包括特征提取，特征匹配，运动估计，局部优化等模块。尽管其中一些方法已经展现了优越的性能，但通常仍需要精心设计和专门进行微调才能适应不同的任务和环境需求。而且，单目视觉里程计缺失尺度信息，往往需要一些先验知识来恢复绝对尺度估计。

本文使用深度递归卷积神经网络(RCNNG)，提出了一种新颖的端到端单目VO的框架。由于它是以端到端的方式进行训练和配置的，因此它可以直接从一系列原始的RGB图像（视频）中计算得到姿态，而无需采用任何传统VO框架中的模块。

I. INTRODUCTION

在过去的几十年中，视觉里程计（VO）作为姿态估计和机器人定位的关键技术之一，引起了计算机视觉和机器人领域的广泛关注。它被广泛应用于各种机器人中，作为GPS、惯性导航系统（INS）、轮式里程计等的补充。

在过去的三十年中，为了开发准确且稳健的单目VO系统，已经做了大量的工作。如图1所示，经典的流程通常包括相机标定、特征检测、特征匹配（或跟踪）、异常值剔除（例如RANSAC）、运动估计、尺度估计和局部优化（束调整）。这个流程被广泛认可为遵循的黄金规则。尽管一些基于这个流程的最新算法在精度和稳健性方面表现出色，但它们通常是经过大量工程努力硬编码（hard-coded）的，流程中的每个模块都需要经过精心设计和微调以确保性能。此外，单目VO需要通过使用一些额外信息（例如相机高度）或先验知识来估计绝对尺度，这使其容易产生大的漂移，并且比立体VO更具挑战性。

图1. 传统基于特征的单目VO和提出的端到端方法的架构。在提出的方法中，RCNN以RGB图像序列（视频）作为输入，并通过CNN学习特征，通过基于RNN的顺序建模来估计姿态。相机图像来源：KITTI数据集。

近年来，深度学习（DL）在许多计算机视觉任务中取得了令人期待的结果。然而，对于VO问题来说，深度学习的应用还未达到相同的水平。事实上，目前关于VO的工作非常有限，甚至与3D几何问题相关的工作也很少。我们推测这是因为大多数现有的深度学习架构和预训练模型主要设计用于解决识别和分类问题，驱使深度卷积神经网络（CNN）从图像中提取高层次的外观信息。学习外观表示将VO限制在训练过的环境中，并严重阻碍了VO在新场景中的推广。这就是为什么VO算法严重依赖于几何特征而不是外观特征的原因。同时，VO算法理想情况下应该通过检查图像序列的变化和连接来建模运动动态，而不是处理单个图像。这意味着我们需要顺序学习，而CNN是不够适用的。

在本文中，我们通过利用深度递归卷积神经网络（RCNN）[4]，提出了一种基于深度学习的单目VO算法。由于这是以端到端的方式实现的，它不需要经典VO流程中的任何模块（甚至包括相机标定）。主要贡献有三个方面：

1）我们证明了单目VO问题可以通过基于深度学习的端到端方式解决，即直接从原始RGB图像中估计姿态。不需要先验知识或参数来恢复绝对尺度。据我们所知，这是第一个基于深度神经网络（DNNs）的单目VO的端到端方法。

2）我们提出了一种RCNN架构，通过使用CNN学习的几何特征表示，使基于深度学习的VO算法能够推广到全新的环境中。

3）图像序列的顺序依赖性和复杂的运动动态对VO非常重要，但人类很难直接或简单地对其进行建模，这些特性被深度递归神经网络（RNNs）隐含地封装和自动学习。

II. RELATED WORK

本节回顾了单目VO的早期工作，讨论了各种算法及其与其他算法的区别。根据采用的技术和框架，主要有两类算法：基于几何和基于学习的方法。

A. 基于几何的方法

在几何理论的基础上，基于几何的方法主要依靠从图像中提取的几何约束来估计运动，它们在VO领域占据主导地位。由于它们源自优雅而成熟的原理并且已经得到广泛研究，大多数最先进的VO算法属于这一类别。它们可以进一步分为稀疏特征方法和直接方法。

1）稀疏特征方法：稀疏特征方法的典型流程如图1所示，通过从图像序列中提取和匹配（或跟踪）显著特征点，利用多视几何来确定运动。然而，由于存在异常值、噪声等问题，所有的VO算法都会随时间漂移。为了缓解这个问题，可以采用视觉同时定位与地图构建（SLAM）或运动结构（SfM）方法，通过维护一个特征地图来进行漂移校正和姿态估计。其中包括基于关键帧的PTAM 和ORB-SLAM。

2）直接方法：稀疏特征方法的特征提取和匹配计算成本较高。更重要的是，它们只使用显著特征点，无法利用整个图像中包含的丰富信息。相反，直接方法能够利用连续图像中的所有像素进行姿态估计，基于光度一致性的假设，例如DTAM。最近，为单目VO开发了半直接方法，其具有更好的性能。由于直接方法在原理上比基于特征的方法更准确，并且在无纹理环境中表现更好，因此它们越来越受欢迎。

B. 基于学习的方法

作为数据驱动方法，基于学习的方法利用机器学习技术从传感器读数中学习运动模型并推断VO，而无需显式应用几何理论。在文献[15]、[16]和[17]中，光流用于训练K最近邻（KNN）、高斯过程（GP）和支持向量机（SVM）回归算法，用于单目VO。由于基于学习的方法近年来才出现，相关工作量有限，尚未有直接处理原始RGB图像的研究。

众所周知，传统的机器学习技术在处理大规模、高度非线性和高维数据（如RGB图像）时效率低下。自动从大规模数据集中学习适当的特征表示的深度学习为VO问题提供了替代解决方案。

1）基于深度学习的方法：深度学习在一些与定位相关的应用中取得了有希望的结果。例如，CNN的特征已被用于基于外观的地点识别[18]。然而，在VO或姿态估计方面的研究相对较少。据我们所知，[19]首次通过图像序列和特征之间的同步检测实现了基于深度学习的VO。在从立体图像估计深度之后，CNN通过softmax函数预测方向和速度的离散变化。尽管这项工作提供了一个可行的基于深度学习的立体VO方案，但它本质上将VO定式为分类问题而不是姿态回归问题。[20]解决了使用单个图像进行相机重定位问题，通过对特定场景的图像进行CNN的微调。它建议使用SfM为这些图像进行标注，但对于大规模场景来说，这是耗时且工作量大的。由于经过训练的CNN模型作为场景的外观“地图”，它需要针对新的环境进行重新训练或至少微调。这严重限制了该技术的广泛应用，这也是将DL应用于VO时面临的最大困难之一。为了解决这个问题，在[21]中，CNN使用稠密光流而不是RGB图像进行运动估计。开发了三种不同的CNN架构，用于学习适用于VO的适当特征，即使在模糊和曝光不足的图像情况下，也能实现强大的VO性能。然而，所提出的CNN需要经过预处理的稠密光流作为输入，无法从端到端的学习中受益，并且可能不适合实时应用。

由于CNN无法对序列信息进行建模，之前的工作没有考虑使用图像序列或视频进行顺序学习。在本研究中，我们通过利用RNN解决了这个问题。

III. END-TO-END VISUAL ODOMETRY THROUGH RCNN

在本节中，将详细介绍实现单目VO的端到端深度RCNN框架。该框架主要由基于CNN的特征提取和基于RNN的顺序建模组成。

A. Architecture of the Proposed RCNN

目前已经有一些流行且强大的DNN架构，例如VGGNet [22]和GoogLeNet [23]，专门用于计算机视觉任务，取得了卓越的性能。其中大多数是为解决识别、分类和检测等问题而设计的，这意味着它们被训练用于从外观和图像上下文中学习知识。然而，正如之前讨论的，VO是基于几何的，不应该与外观密切相关。因此，简单地采用当前流行的DNN架构来解决VO问题是不切实际的。一个能够学习几何特征表示的框架对于解决VO和其他几何问题非常重要。同时，由于VO系统随时间变化并在运动期间处理图像序列，因此必须建立起连续图像帧之间的联系，例如运动模型。因此，所提出的RCNN考虑了这两个需求。

所提出的端到端VO系统的架构如图2所示。它以视频剪辑或单目图像序列作为输入。在每个时间步骤中，RGB图像帧经过预处理，减去训练集的平均RGB值，并可选择将其调整为64的倍数的新尺寸。两个连续的图像被堆叠在一起形成一个张量，用于深度RCNN学习如何提取运动信息和估计姿态。具体而言，图像张量被输入到CNN中，为单目VO生成有效的特征，然后通过RNN进行顺序学习。每个图像对通过网络在每个时间步骤产生一个姿态估计。随着图像的捕获，VO系统随时间发展并估计新的姿态。

图2. 基于RCNN的提出的单目VO系统的架构。这里显示的张量维度是基于KITTI数据集图像大小的示例。CNN的张量维度应根据输入图像的尺寸而变化。摄像机图像来源：KITTI数据集。

RCNN架构的优势在于通过CNN和RNN的组合，允许同时进行特征提取和顺序建模的VO处理。接下来的章节将详细介绍更多细节。

B. CNN based Feature Extraction

为了自动学习适用于VO问题的有效特征，我们开发了一个CNN来对两个连续的单目RGB图像进行特征提取。特征表示理想情况下应具有几何性质，而不与外观或视觉上下文相关，因为VO系统需要在未知环境中进行泛化和部署。CNN的结构受到[24]中用于光流估计的网络的启发。

CNN的配置在表格I中概述，并在图2中给出了在KITTI数据集上的张量示例。它具有9个卷积层，每个层之后都有一个修正线性单元（ReLU）激活函数，除了Conv6，即总共17层。网络中的感受野的大小逐渐从7×7减小到5×5，然后再减小到3×3，以捕获较小的有趣特征。为了适应感受野的配置或保留卷积后张量的空间维度，引入了零填充。通道的数量，即用于特征检测的滤波器数量，逐渐增加以学习各种特征。

CNN接收原始的RGB图像而不是预处理的图像，例如光流或深度图像，作为输入，因为网络被训练用于学习适用于VO的高效特征表示，并降低了维度。这个学到的特征表示不仅将原始的高维RGB图像压缩为紧凑的描述，而且增强了连续的顺序训练过程。因此，最后的卷积特征Conv6被传递到RNN进行顺序建模。

C. RNN based Sequential Modelling

在CNN之后，设计了一个深层的RNN来进行顺序学习，即对一系列CNN特征进行动态建模和关系建模。需要注意的是，这种建模是由RNN隐式进行的，以自动发现适当的顺序知识。因此，它可能会超出我们用于描述物理运动和几何的模型。

由于RNN能够建模序列中的依赖关系，它非常适合解决VO问题，其中涉及时间模型（运动模型）和序列数据（图像序列）。例如，估计当前图像帧的姿态可以从前面的帧中封装的信息中受益。实际上，这个观点在传统的VO系统中已经存在。例如，多视角几何可以避免两视图几何中的一些问题[5]。然而，RNN不适合直接从高维原始数据（如图像）中学习顺序表示。因此，所提出的系统采用了吸引人的RCNN架构，其中CNN特征作为RNN的输入。

RNN与CNN不同之处在于它在时间上保持其隐藏状态的记忆，并在它们之间存在反馈循环，使得当前隐藏状态成为先前状态的函数，如图2所示的RNN部分。因此，RNN可以找到输入和先前状态在序列中的连接关系。给定时间步 $k$ 处的卷积特征 $x_k$ ，RNN在时间步 $k$ 上进行更新的方式为：

$\begin{array}{l} \mathbf{h}_{k}=\mathcal{H}\left(\mathbf{W}_{x h} \mathbf{x}_{k}+\mathbf{W}_{h h} \mathbf{h}_{k-1}+\mathbf{b}_{h}\right) \\ \mathbf{y}_{k}=\mathbf{W}_{h y} \mathbf{h}_{k}+\mathbf{b}_{y} \end{array}$

图3. 折叠和展开的LSTM以及其单元的内部结构。⊙和 ⊕ 分别表示两个向量的逐元素乘积和相加。

备注：原论文中图3中部分符号模糊，看不清楚，这里使用红色的标号表示。

其中 $h_k$ 和 $y_k$ 分别是时间 $k$ 的隐藏状态和输出， $w$ 表示相应的权重矩阵， $b$ 表示偏置向量， $H$ 是元素级别的非线性激活函数，例如sigmoid或双曲正切函数。尽管从理论上讲，标准RNN可以学习任意长度的序列，但由于已知的梯度消失问题[25]，实际上只能处理较短的序列。为了能够发现和利用在长轨迹中拍摄的图像之间的相关性，我们使用了长短期记忆（LSTM）作为我们的RNN。LSTM通过引入记忆门和单元来学习长期依赖关系，明确确定了哪些先前的隐藏状态在更新当前状态时被丢弃或保留，以期在姿态估计过程中学习运动。图3显示了折叠LSTM及其随时间展开的版本，以及LSTM单元的内部结构。可以看出，在展开LSTM之后，每个LSTM单元与一个时间步骤相关联。给定时间 $k$ 处的输入 $x_k$ 以及前一个LSTM单元的隐藏状态 $h_{k-1}$ 和记忆单元 $c_{k-1}$ ，LSTM在时间步 $k$ 上进行更新，按照以下方式进行更新：

其中⊙表示两个向量的逐元素乘积，σ表示sigmoid非线性，tanh表示双曲正切非线性，W表示相应的权重矩阵，b表示偏置向量， $i_k$ 、 $f_k$ 、 $g_k$ 、 $c_k$ 和 $o_k$ 分别是时间 $k$ 处的输入门、遗忘门、输入调制门、记忆单元和输出门。

尽管LSTM可以处理长期依赖关系并具有深层时间结构，但仍需要在网络层面上进行深度建模，以学习高级表示和建模复杂动态。深度RNN架构的优势已在[27]中证明，用于使用声学信号的语音识别。因此，在我们的情况下，深度RNN由两个LSTM层堆叠而成，其中一个LSTM的隐藏状态作为另一个LSTM的输入，如图2所示。在我们的网络中，每个LSTM层有1000个隐藏状态。

深度RNN基于CNN生成的视觉特征在每个时间步骤输出姿态估计。随着相机移动和图像的捕获，这个过程会随着时间的推移而不断进行。

D. Cost Function and Optimisation

基于RCNN的VO系统可以在概率视角下通过给定一系列单目RGB图像 $X_t=(x_1,x_2,...,x_n)$

计算姿态 $Y_t=(y_1,y_2,...,y_n)$ 的条件概率。

$p(Y_t |X_t)=p(y_1,y_2,...,y_n|x_1,x_2,...,x_n)$ （3）

在深度RCNN中进行建模和概率推断。为了找到VO的最优参数θ∗，DNN最大化公式（3）（条件概率，意思是：在当前输入的RGB序列条件下，位姿取值可能的最大概率）。使得公式（3）最大的时候， $\theta$ 的取值，即是我们需要的参数值：

为了学习DNN的超参数θ，在时间 $k$ ，可以使用 ground truth pose（ $p_k,\varphi{_k}$ ）和估计姿态（ $\hat{p_k},\hat{\varphi{_k}}$ ）之间的欧几里得距离最小值进行优化（即：损失函数是二范式距离）。

损失函数由所有的平移矩阵 $p$ 和旋转向量 $\varphi$ 组成的Mean Square Error (MSE)构成。

其中， $\left \| . \right \|$ 表示2范数（欧几里得距离）， $k$ （实验中为100）是一个用于平衡位置和方向权重的缩放因子， $N$ 是样本数量。方向 $\varphi$ 使用欧拉角表示，而不是四元数，因为四元数受到额外的单位约束限制，会影响DL的优化问题。我们还发现，在实践中使用四元数会在一定程度上降低方向估计的精度。

IV. E XPERIMENTAL R ESULTS

在本节中，我们在著名的KITTI VO/SLAM基准测试[3]上评估了所提出的端到端单目VO方法。由于大多数现有的单目VO算法不会估计绝对尺度，它们的定位结果必须手动与地面真实值对齐。因此，采用了开源VO库LIBVISO2[7]进行比较，该库使用固定的相机高度来恢复单目VO的尺度。我们还使用了直接获得绝对位姿的立体版本。

备注：

LIBVISO2 (Library for Visual Odometry 2) 是一个开源的视觉里程计库，用于计算相机的运动和定位。

它实现了一种基于特征的稀疏方法，通过提取和匹配图像中的显著特征点来估计相机的运动。LIBVISO2能够根据相机高度来恢复尺度，并提供了单目视觉里程计和立体视觉里程计两种模式。该库已被广泛应用于机器人导航、SLAM（Simultaneous Localization and Mapping）和视觉定位等领域。

A. Training and Testing

1) Dataset:KITTI VO/SLAM基准测试[3]提供了22个图像序列，其中11个序列（序列00-10）附带有ground truth。其他11个序列（序列11-21）只提供原始传感器数据。由于该数据集是在城市区域驾驶中以相对较低的帧率（10 fps）录制的，道路上有许多动态物体，并且驾驶速度高达90公里/小时，对于单目VO算法来说具有很大的挑战。

2) Training and Testing:我们进行了两个单独的实验来评估所提出的方法。第一个实验基于序列00-10，通过ground truth定量分析其性能，因为只有这些序列提供了ground truth。为了获得一个独立的测试数据集，我们仅使用相对较长的序列00、02、08和09进行训练。将轨迹分割成不同长度，以生成大量的训练数据，总共产生7410个样本。训练好的模型将在序列03、04、05、06、07和10上进行评估。

由于对真实数据具有良好的泛化能力对于基于深度学习的方法至关重要，下一个实验旨在分析所提出的方法和训练的VO模型在全新环境中的表现如何。对于VO问题，这一点如前所述尤为重要。因此，我们首先在所有序列00-10上训练的得到模型，然后在没有ground truth的序列11-21上测试。

该网络基于著名的深度学习框架Theano实现，并使用NVIDIA Tesla K40 GPU进行训练。采用Adagrad优化器，在学习率为0.001的情况下训练网络最多200个周期。引入了Dropout和early stopping技术来防止模型过拟合。为了减少训练时间和收敛所需的数据量，CNN基于预训练的FlowNet模型[24]。

3) How overfitting affects the VO: 众所周知，过拟合是机器学习方法中不希望出现的行为。然而，在VO问题的背景下，其意义和影响仍不清楚。对于这一点的具体讨论，可以指导VO系统的更好训练，目前仍然缺失。

在图4中，给出了两个模型的损失和VO结果。图4(a)中训练和验证损失之间的差距较大，表明与图4(b)中的合适损失相比，存在严重的过拟合问题。通过观察训练数据的估计VO，可以看出过拟合模型的结果比合适模型更准确，如图4(c)和图4(d)所示。然而，当将训练好的模型应用于测试数据时，合适模型的结果要好得多，参见图4(e)和图4(f)。

这在模型在实际应用中处理真实数据时也很有可能发生。因此，在训练VO模型时，应该仔细检查过拟合问题。根据这个例子，我们可以看出，对于基于深度学习的VO问题，过拟合会产生直观的结果，严重影响里程计估计。合适的模型是确保训练好的VO模型在未经训练的环境中具有良好泛化性能和可靠姿态估计的关键。在我们的工作中，我们观察到方向比位置更容易过拟合。这可能是因为方向变化通常较小。至于欠拟合，我们认为这种情况很少发生，因为DNN的容量通常很大，而训练数据的规模往往有限。

图4. 展示了两个模型的训练损失和VO结果。左列和右列的图像分别对应过拟合和适合拟合的模型。 (a)-(b)是训练和验证损失。(c)-(d)是在训练数据（Sequence 00）上估计的VO结果。 (e)-(f)是在测试数据（Sequence 05）上估计的VO结果。

B. VO Results

根据KITTI VO/SLAM评估指标,对训练的VO模型的性能进行分析，例如：计算了平均均方根误差（RMSE）。针对不同长度和速度的子序列（长度范围从100到800米），计算了平均的平移误差和旋转误差。

第一个基于深度学习的模型是在Sequence 00、02、08和09上训练的，然后在Sequence 03、04、05、06、07和10上进行测试。在测试序列上估计的VO的平均RMSE结果如图5所示，其中显示了平移和旋转在不同路径长度和速度下的情况。尽管DeepVO的结果比stereo VISO2 (VISO2 S)差，但与monocular VISO2 (VISO2 M)相比始终更好，除了在高速情况下DL模型的平移误差稍高于monocular VISO2。我们推测这是因为Sequence 00、02、08和09的最大速度低于60公里/小时，并且训练样本中速度大于50公里/小时的样本非常有限。在没有足够涵盖高速情况的训练数据的情况下，网络试图回归VO，但可能会导致较大的漂移误差。有趣的是，旋转误差在高速度下变小，与平移误差相反。这可能是因为KITTI数据集是在汽车行驶过程中记录的，高速行驶时车辆通常会直线行驶，而在减速时会转弯。在长度增加时，DeepVO的平移和旋转误差明显减小，并逐渐接近立体VISO2的结果，如图5(a)和图5(b)所示。

图5. 针对不同路径长度和速度，平移和旋转误差的平均值。所使用的DeepVO模型是在Sequence 00、02、08和09上训练的。

图6显示了与先前测试相对应的估计VO轨迹。可以看出，DeepVO相对精确且一致地产生了与真实值相对应的轨迹，表明相比使用先验信息（如相机高度），尺度可以更好地估计。请注意，DeepVO不需要进行尺度估计或与真实值对齐来获取绝对姿态。尺度完全由网络自身维护，并在端到端训练期间隐式学习。由于对于单目VO来说，准确且稳健地恢复尺度是非常困难的，这表明了基于DL的VO方法具有一个有吸引力的优势。算法在测试序列上的详细性能总结如表II所示。表明DeepVO比单目VISO2获得更稳健的结果。

图6. 显示了在Sequence 04、05、07和10上的VO测试结果的轨迹。所使用的DeepVO模型是在Sequence 00、02、08和09上进行训练的。

虽然先前的实验已经评估了DeepVO模型的泛化能力，但为了进一步研究它在具有不同运动模式和场景的全新场景中的表现，该网络在KITTI VO基准测试的测试数据集上进行了测试。DeepVO模型是在KITTI VO基准测试的所有11个训练序列（即Sequence 00-10）上进行训练的，提供更多的数据以避免过拟合并最大化网络的性能。由于这些测试序列缺乏真实值，因此无法对VO结果进行定量分析。
为了进行定性比较，在图8中显示了DeepVO、单目VISO2和立体VISO2的一些预测轨迹。可以看出，DeepVO的结果要比单目VISO2好得多，大致类似于立体VISO2的结果。似乎这个更大的训练数据集提升了DeepVO的性能。考虑到立体VISO2的立体属性，作为单目VO算法，DeepVO实现了令人满意的性能，表明训练模型可以在未知情景中很好地泛化。图8(b)中的Sequence 12的测试结果可能是一个例外，尽管轨迹的形状与立体VISO2相似，但其本身的定位误差相当大。

这有几个原因。首先，训练数据集中没有足够多关于高速行驶的数据。在所有11个训练数据集中，只有Sequence 01的速度高于60 km/h。然而，Sequence 12的速度范围从50km/h到约90km/h。此外，图像以每秒10帧的速度捕捉，这使得在快速移动过程中的VO估计更具挑战性。

图7所示的高速公路周围的大开放区域（缺乏特征）和动态移动物体也会降低准确性。这些原因也适用于Sequence 21。为了缓解这些问题，传统的基于几何的方法可以增加特征匹配并引入异常值拒绝，如RANSAC。然而，对于基于DL的方法，目前还不清楚如何嵌入这些技术。然而，一个可行的解决方案是使用更多数据对网络进行训练，这些数据不仅反映这些情况，还人为地引入噪声、异常值等，让网络自己解决这些问题。

V. CONCLUSIONS

该论文提出了一种基于深度学习的全新单目视觉里程计（VO）算法。通过利用深度循环卷积神经网络（RCNN），这种新的方法能够通过将卷积神经网络（CNN）与循环神经网络（RNN）相结合，实现表示学习和序列建模的同时。由于该方法在姿态估计方面不依赖于传统VO算法的任何模块（甚至不需要相机标定），并且能够以端到端的方式进行训练，因此无需精心调整VO系统的参数。基于KITTI VO基准测试，验证了该方法在准确性和全新场景下的工作能力。

虽然该论文中提出的基于深度学习的VO方法在该领域取得了一些成果，但强调的是它并不打算取代传统的基于几何的方法。相反，它可以作为一种有效的补充，将深度学习所学到的表示、知识和模型与几何方法相结合，进一步提高VO在准确性和鲁棒性方面的性能。通过结合几何和深度学习，可以在提升VO系统性能方面取得进一步的发展。

huarzail

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
DeepVO：通过深度循环卷积神经网络实现端到端的视觉里程计

使用深度递归卷积神经网络(RCNNG)，提出了一种新颖的端到端单目VO的框架。由于它是以端到端的方式进行训练和配置的，因此它可以直接从一系列原始的RGB图像（视频）中计算得到姿态，而无需采用任何传统VO框架中的模块。
复制链接

扫一扫