文献阅读-VO（CVPR2023）PVO: Panoptic Visual Odometry

huarzail

已于 2023-07-27 10:40:51 修改

阅读量981

点赞数 1

分类专栏： VSLAM 文章标签：人工智能计算机视觉

于 2023-05-14 15:30:40 首次发布

本文链接：https://blog.csdn.net/huarzail/article/details/130669210

版权

VSLAM 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

Abstract

我们提出了PVO，一种新颖的全景视觉里程计框架，旨在实现对场景运动、几何和全景分割信息更全面的建模。我们的PVO将视觉里程计（VO）和视频全景分割（VPS）统一起来，使得这两个任务相互受益。具体而言，我们在VO模块中引入了一个全景更新模块，并结合图像全景分割的指导。这个全景增强的VO模块可以通过全景感知的动态掩蔽器减轻相机位姿估计中动态物体的影响。另一方面，VO增强的VPS模块通过将当前帧的全景分割结果实时融合到相邻帧中，利用从VO模块获得的相机位姿、深度和光流等几何信息来提高分割精度。这两个模块通过循环迭代优化相互促进。大量实验证明，PVO在视觉里程计和视频全景分割任务上优于现有的方法。

1. Introduction

理解场景的运动、几何和全景分割对于计算机视觉和机器人技术至关重要，涵盖的应用范围从自动驾驶到增强现实等。在本研究中，我们迈出了一步，致力于解决这个问题，通过使用单目视频实现对场景的更全面建模。

已提出两个任务来解决这个问题，即视觉里程计（VO）和视频全景分割（VPS）。具体而言，VO [9、11、38]以单目视频作为输入，在静态场景假设下估计相机位姿。为了处理场景中的动态物体，一些动态SLAM系统 [2、45]使用实例分割网络 [14] 进行分割，并显式地滤除某些类别的物体，这些物体可能是动态的，如行人或车辆。然而，这些方法忽视了潜在的动态物体实际上可以在场景中静止不动，例如停放的车辆。相反，VPS [18、44、52]专注于在给定一些初始全景分割结果的情况下，跟踪场景中的个体实例。当前的VPS方法并没有明确区分物体实例是否在移动。虽然现有方法广泛地独立解决了这两个任务，但值得注意的是，场景中的动态物体可能会使这两个任务都变得具有挑战性。鉴于这两个任务之间的相关性，一些方法 [5、7、20、22] 尝试同时处理这两个任务，并以多任务方式训练运动-语义网络，如图2所示。然而，这些方法中使用的损失函数可能会相互矛盾，从而导致性能下降。

在这项工作中，我们提出了一种新颖的全景视觉里程计（PVO）框架，通过统一的视角紧密地结合了这两个任务，全面地对场景进行建模。我们的观点是，VPS可以通过全景分割信息调整VO的权重（每个实例的像素权重应该是相关的），而VO可以将视频全景分割的跟踪和融合从2D转化为3D。受到开创性的期望最大化算法 [28] 的启发，通过循环迭代优化策略，可以使这两个任务相互受益。

我们的PVO包括三个模块，一个图像全景分割模块，一个增强型全景视觉里程计模块和一个增强型视觉全景分割模块。具体而言，全景分割模块（参见第3.1节）接收单个图像并输出图像的全景分割结果，然后将其作为初始化输入到增强型全景视觉里程计模块中。需要注意的是，虽然我们选择了PanopticFPN [21]，但任何分割模型都可以在全景分割模块中使用。在增强型全景视觉里程计模块中（参见第3.2节），我们提出了一个全景更新模块，以过滤动态物体的干扰，从而提高动态场景中姿态估计的准确性。在增强型视觉全景分割模块中（参见第3.3节），我们引入了一种在线融合机制，根据估计的姿态、深度和光流将当前帧的多分辨率特征与相邻帧对齐。这种在线融合机制可以有效解决多个物体遮挡的问题。实验表明，循环迭代优化策略可以提高VO和VPS的性能。

总体而言，我们的贡献可以总结为四个方面：

(1) 我们提出了一种新颖的全景视觉里程计（PVO）框架，可以统一VO和VPS任务，全面地对场景进行建模。

(2) 引入了一个全景更新模块，并将其融入增强型全景视觉里程计模块中，以提高姿态估计的准确性。

(3) 在增强型视觉全景分割模块中提出了一种在线融合机制，有助于提高视频全景分割的准确性。

(4) 大量实验证明，通过循环迭代优化的PVO在视觉里程计和视频全景分割任务上优于现有方法。

图2. 插图。我们的PVO将视觉里程计和视频全景分割统一起来，使得这两个任务可以通过迭代优化相互增强。相比之下，像SimVODIS [20]这样的方法以多任务方式优化运动和语义信息。

2. Related Work

2.1. Video Panoptic Segmentation

视频全景分割旨在生成一致的全景分割结果，并将实例跟踪到所有视频帧的像素级别。先驱性工作VPSNet [18]定义了这一新颖任务，并提出了一种基于实例级别跟踪的方法。SiamTrack [44]通过提出像素管匹配损失和对比损失来提高实例嵌入的区分能力，对VPSNet进行了扩展。VIPDeeplab [32]通过引入额外的深度信息，提出了一种深度感知的VPS网络。而STEP [43]提出了对视频全景分割进行像素级分割和跟踪的方法。HybridTracker [52]提出了从两个视角进行实例跟踪的方法：特征空间和空间位置。与现有方法不同的是，我们引入了一个VO-Enhanced VPS模块，利用VO估计的相机姿态、深度和光流，将当前帧的信息跟踪和融合到相邻帧中，并能处理遮挡情况。

2.2. SLAM and Visual Odometry

SLAM代表同时自定位与建图，而视觉里程计服务于SLAM的前端，聚焦于位姿估计。当前的SLAM系统粗略的分为两类：基于几何的方法和基于学习的方法。随着监督学习方法表现出色，基于无监督学习的视觉里程计方法[33, 54, 55]也受到了广泛关注，但它们的表现没有监督方法好。一些无监督方法[16, 49, 59]利用辅助任务如深度和光流的多任务学习来提高性能。

最近，TartanVO [40] 提出了构建一个可通用的基于学习的视觉里程计系统，并在具有挑战性的SLAM数据集TartanAir [41]上进行了测试。DROID-SLAM [36] 提出使用密集捆绑调整层迭代更新相机姿态和像素级深度，并展示了卓越的性能。DeFlowSLAM [53] 进一步提出了双流表示和自监督方法，以改善SLAM系统在动态场景中的性能。为了解决动态场景的挑战，动态SLAM系统 [4, 13]通常利用语义信息作为约束 [24] 或先验来提高传统基于几何的SLAM系统的性能，但它们 [1, 2, 10, 27, 31, 34, 47, 56, 58] 主要针对立体、RGBD或LiDAR序列。相反，我们引入了一个全景更新模块，并在DROID-SLAM上构建了全景增强的视觉里程计系统，并可以处理单目视频。这样的组合使得我们能够更好地理解场景的几何和语义，从而在场景中的动态物体方面更加鲁棒。与其他多任务端到端模型不同 [20]，我们的PVO具有循环迭代优化策略，可以防止任务相互干扰。

3. Method

给定一个单目视频，PVO聚焦于同时定位与全景3D建图。图3代表PVO的整体框架。他主要包含三个模块：一个图像全景分割模块，一个全景增强VO模块和一个增强VO的VPS模块。VO模块主要是为了估计位姿、深度和光流，然而VPS模块输出响应的全景分割。最后两个模块以迭代的方式互相贡献。

图3. Panoptic Visual Odometry Framework。我们的方法包含3个模块，分别是：一个图像全景分割模块用于系统初始化（蓝色）。一个全景增强VO模块（橙色）。一个VO增强的VPS模块（红色）。最后两个模块以迭代的方式互相增强。

3.1. Image Panoptic Segmentation

图像全景分割以单张图片作为输入，输出是全景分割的结果。它结合语义分割和实例分割来对图像的实例进行建模。输出结果用于初始化视频全景分割，并输入到全景增强的视觉里程计模块（参见第3.2节）。在我们的实验中，如果没有特别说明，我们使用广泛使用的图像全景分割网络PanopticFPN [21]。PanopticFPN基于具有权重 $\theta _e$ 的ResNet $f_{\theta _e}$ 骨干网络，并提取图像It的多尺度特征：

它的输出是用一个带权重 $\theta _d$ 的解码器 $g_{\theta _d}$ 来得到全景分割结果，包含语义分割和实例分割。每个像素P的全景分割结果是：

馈入解码器的多尺度特征会随时间更新。在开始时，由编码器生成的多尺度特征直接馈入解码器（图3中的蓝色部分）。在后续的时间步骤中，这些多尺度特征将在馈入解码器之前通过在线特征融合模块进行更新（参见第3.3节）。

3.2. Panoptic-Enhanced VO Module

在视觉里程计中，动态场景无处不在，过滤掉动态物体的干扰至关重要。DROID-SLAM的前端[36]将单目视频 $\left \{ I_t\right \}_{t=0}^{N}$ 作为输入，并通过迭代优化光流差分 $r_{_{i,j}}\in \mathbb{R}^{H\times W\times 2}$ 和置信度 $w_{_{i,j}}\in \mathbb{R}^{H\times W\times 2}$ 来优化相机位姿 $\left \{G_t\right \}_{t=0}^{N}\in SE(3)$ 的残差和逆深度 $I_t\in R_{+}^{H\times W}$ 的残差。然而，它并未考虑到大多数背景是静态的，前景物体可能是动态的，并且每个物体像素的权重应该是相关的。Panoptic-Enhanced VO模块的洞察力（参见图4）是通过整合来自全景分割的信息来帮助获得更好的置信度估计（参见图7），从而可以获得更准确的相机姿态。接下来，我们将简要回顾与DROID-SLAM相似的部分（特征提取和相关性），并聚焦于全景更新模块的优秀设计。

3.2.1 Feature Extraction and Correlation

Feature Extraction. 相似于DROID-SLAM，Panoptic-Enhanced VO Module借用RAFT的关键部分来提取特征。我们使用两个独立的网络（特征编码器和上下文编码器）来提取每个图像的多尺度特征，其中来自特征编码器的特征被用来构建图像对的4D相关性体积，而来自上下文编码器的特征则被注入到全景更新模块中（见第3.2.2节）。特征编码器的结构类似于全景分割网络的主干，它们可以使用共享的编码器。请注意，出于实现的便利性，我们使用不同的编码器。

Correlation Pyramid and Lookup. 相似于DROID-SLAM，我们采用一个frame图( $\nu ,\varepsilon$ )来表示两帧的共视关系。例如一个边 $(i,j)\in \varepsilon$ 代表两个图像 $I_i$ 和 $I_j$ 重叠的部分，一个4D相关代价卷可以通过两张图片的特征向量之间的点乘来构造。

接着使用平均池化层来获取金字塔相关性。我们使用与DROID-SLAM [36]中定义的相同查找运算符，通过双线性插值在金字塔相关性体积中索引值。这些相关性特征被拼接在一起，得到最终的特征向量。

图4. Panoptic-Enhanced VO Module。全景增强视觉里程计模块主要将4D相关性体积、来自上下文编码器的上下文信息以及光流信息馈送到全景更新模块中。全景更新模块进行N次迭代，以获得更好的深度、姿态和光流估计。全景分割信息用于调整相关性权重，而光流被初始化为0，并通过DBA层进行迭代更新。

3.2.2 Panoptic Update Module

Panoptic-Enhanced VO Module（见图4）继承了DROID-SLAM的前端视觉里程计模块，利用全景分割信息来调整VO的权重。通过将初始光流传入光流编码器以及建立两帧之间的4D相关性体积和上下文编码器获取的特征，得到的流信息被馈送到GRU作为中间变量。然后，通过三个卷积层分别输出动态掩码 $M_{r_{_{i,j}}\in \mathbb{R}^{H\times W\times 2}}$ 、相关性置信图 $w_{_{i,j}\in \mathbb{R}^{H\times W\times 2}}$ 和密集光流增量 $r_{_{i,j}\in \mathbb{R}^{H\times W\times 2}}$ 。我们可以根据初始化的全景分割调整动态掩码为全景感知的动态掩码。为了便于理解，我们保持符号不变。特别地，背景分割将被设为静态，而具有高动态概率的前景对象将被设为动态。然后，将置信度和全景感知的动态掩码通过全景感知滤波模块进行处理，以获得全景感知的置信度：

在实验中， $\eta$ 被设置为10。

获得的光流增量 $r_{i,j}$ 加上原始光流被馈送到密集束调整（DBA）层，以优化逆深度和位姿的残差。全景更新模块进行N次迭代优化，直到收敛。遵循DROID-SLAM的方法，位姿的残差 ∆ξ (n) 在SE3流形上进行变换，用于更新当前位姿，而深度和动态掩码的残差则分别添加到当前深度和动态掩码中：

Correspondence. 我们首先在每次迭代中使用当前的姿态和深度估计来搜索对应关系。参考DROID-SLAM [36]，对于帧i中的每个像素坐标 $p_i{\in \mathbb{R}^{H\times W\times 2}}$ ,可以计算每个边 $(i,j)\in \varepsilon$ 在frame图中的密集对应场 $p_{i,j}$ 如下所示：

${\prod}_c$ 代表投影3D坐标点到图像平面的相机模型。 ${\prod}_{c}^{-1}$ 是反函数，也就是将2D坐标点 $p_i$ 和深度图d投影到3D坐标点。 $G_{i,j}$ 代表图 $I_i$ 和 $I_ j$ 的相关位姿。 $p_{i,j}$ 代表根据当前的位姿和深度，将像素 $p_i$ 的坐标被转换到第j帧的2D坐标。正确的相关性代表预测的相关性和光流残差的和，如： $p_{i,j}^{*}=p_{i,j}+r_{i,j}$ 。

DBA Layer. 我们使用DROID-SLAM [36]中定义的dense bundle adjustment layer (DBA)来将stream revisions映射到更新当前估计的逐像素深度和姿态。成本函数可以定义如下：

我们使用Schur complement来解决这个非线性最小二乘问题，即公式（8）。利用高斯-牛顿算法来更新姿态的残差 (∆ξ)、深度和掩码 (∆Θ)。

3.3. VO-Enhanced VPS Module

Video panoptic segmentation聚焦于获得每一帧的全景分割结果，并获得帧之间的分割相关性。为了提高分割精度和跟踪精度，一些方法，如：FuseTrack [18]尝试使用光流信息来融合特征和使用相似特征来跟踪他们。这些方法仅从2D的角度出发，可能会遇到遮挡或剧烈运动的问题。我们生活在一个3D的世界中，可以利用额外的深度信息来更好地建模场景。我们的VO-Enhanced VPS模块基于这种理解，可以更好地解决上述问题。

图5显示了VO-Enhanced VPS模块，该模块通过使用从视觉里程计获得的深度、姿态和光流信息，将上一帧t-1的特征通过wrap操作映射到当前帧t，得到wrap后的特征。在线融合模块将当前帧t和wrap特征融合，得到融合特征。为了保持视频分割的一致性，我们首先将包含几何运动信息的warped特征t−1和融合的特征图t输入到解码器中，分别获得t−1和t的全景分割。然后，使用简单的IoU-match模块来获得一致的全景分割结果。这个结果将被输入到Panoptic-Enhanced VO模块中。

图5. VO-Enhanced VPS模块。VO-Enhanced VPS模块利用从视觉里程计获得的姿态、深度和光流信息，实现了不同帧之间的特征跟踪和融合。为了更好地应对遮挡挑战，还包括了一个在线融合模块。视频全景分割结果将被输入到Panoptic-Enhanced VO模块中。

VO-Aware Online Fusion. 特征融合网络首先将两个特征zt−1和zt进行拼接，然后通过具有ReLU激活函数的卷积层，得到融合后的特征 $\widehat{z}_t$ 。受到NeuralBlox [25]的启发，我们提出了两个损失函数用于监督，以确保在线特征融合能够有效（参见表5）。

Feature Alignment Loss [25].我们采用一个特征对齐损失来最小化 $z_{t}^{*}$ 和 $\widehat{z}_t$ 的距离。

其中 $z_{t}^{*}$ 代表从不同图像中对同一图像进行wrap得到的相同像素的平均特征。

Segmentation Consistent Loss. 此外，我们还添加了一个分割损失，它最小化使用不同特征 $z_{t}^{*}$ 和 $\widehat{z}_t$ 解码的查询像素 p 的逻辑差异：

3.4. Recurrent Iterative Optimization

我们可以通过循环迭代的方式优化所提出的 Panoptic-Enhanced VO 模块和 VO-Enhanced VPS 模块，直到收敛，这受到 EM 算法的启发。实验结果表明，通常只需要两次迭代循环就能收敛。表5和表6展示了循环迭代优化可以提升 VPS 和 VO 模块性能的情况。

3.5. Implementation Details

PVO 是由 PyTorch 实现的，包括三个主要模块：image panoptic segmentation, Panoptic-Enhanced VO Module, and VO-Enhanced VPS Module。我们使用三个阶段来训练网络。Image panoptic segmentation在 Virtual KITTI [3] 数据集上进行初始化训练。在训练过程中，采用多尺度缩放策略，参考 PanopticFCN。我们在两个 GeForce RTX 3090 GPU 上以初始学习率为1e-4进行优化，每个小批次包含8张图像。采用 SGD 优化器，权重衰减为1e-4，动量为0.9。Panoptic-Enhanced VO Module的训练遵循 DROID-SLAM [36] 的方法，但额外提供了真实的全景分割结果作为输入。具体而言，我们在 Virtual KITTI 数据集上使用两个 GeForce RTX 3090 GPU 进行了80000个步骤的训练，大约耗时两天。在训练VO-enhanced video panoptic segmentation module时，我们使用真实的深度、光流和姿态信息作为几何先验来对齐特征，并固定已经训练好的单张图像全景分割的骨干网络，仅训练融合模块。网络在一块 GeForce RTX 3090 GPU 上以初始学习率为1e-5进行优化，每个批次包含8张图像。当融合网络基本收敛时，我们添加了一个分割一致性损失函数，进一步改进了我们的 VPS 模块。

4. Experiments

对于视觉里程计，我们在三个具有动态场景的数据集上进行了实验：Virtual KITTI、KITTI和TUM RGBD动态序列。使用绝对轨迹误差（ATE）进行评估。对于视频全景分割，我们在Cityscapes和VIPER数据集上使用视频全景质量（VPQ）度量[18]。我们还在Virtual KITTI数据集上进行了消融研究，以分析我们框架的设计。最后，在附加材料的第B节中展示了我们的PVO在视频编辑中的适用性。

4.1. Visual Odometry

VKITTI2. Virtual KITTI数据集[3]由从KITTI跟踪基准中克隆的5个序列组成，为每个序列提供了RGB、深度、类别分割、实例分割、相机姿态、光流和场景流数据。如表6和图6所示，我们的PVO在大多数序列中显著优于DROID-SLAM，并在第02序列中取得了竞争性的性能。

KITTI. KITTI [12]是一个捕捉真实交通场景的数据集，涵盖了从高速公路到农村地区再到城市街道的各种静态和动态对象。我们将在VKITTI2 [3]数据集上训练的PVO模型应用于KITTI [12]序列。如图6所示（KITTI 09和10序列），PVO的姿态估计误差仅为DROID-SLAM的一半，证明了PVO的良好泛化能力。表1展示了在KITTI和VKITTI数据集上的完整SLAM比较结果，PVO在大多数场景中显著优于DROID-SLAM和DynaSLAM。请注意，我们使用的是DynaSLAM的代码，它是一个具有实例分割功能的经典SLAM系统。在VKITTI2 02、06和18序列中，DynaSLAM遭遇了灾难性的系统故障。

TUM-RGBD. TUM RGBD是一个捕捉手持摄像机室内场景的数据集。我们选择TUM RGBD数据集中的动态序列来展示我们方法的有效性。我们将PVO与DROID-SLAM以及三种最先进的动态RGB-D SLAM系统进行比较，分别是DVO SLAM [17]、ORB-SLAM2 [30]和PointCorr [6]。请注意，PVO和DROID-SLAM只使用单目RGB视频。表2展示了PVO在所有场景中均优于DROID-SLAM。与传统的RGB-D SLAM系统相比，我们的方法在大多数场景中表现更好。

4.2. Video Panoptic Segmentation

我们将PVO与三种基于实例的视频全景分割方法进行比较，分别是VPSNet-Track、VPSNet-FuseTrack [19]和SiamTrack [44]。VPSNet-Track是基于图像全景分割模型UPSNet [46]构建的，它还额外添加了MaskTrack头部 [48]，形成了视频全景分割模型。VPSNet-FuseTrack基于VPSNet-Track，另外还引入了时序特征聚合和融合。而SiamTrack则使用像素管匹配损失 [44]和对比损失对VPSNet-Track进行微调，并且略微提升了性能。主要进行与VPSNet-FuseTrack的比较，因为SiamTrack的代码不可用。

Cityscapes. 我们采用VPS [18]中Cityscapes的公开训练/验证/测试划分，其中每个视频包含30个连续帧，并且每五帧有相应的ground truth真实注释。表格3显示，我们使用PanopticFCN [23]的方法在验证数据集上表现优于现有的方法，VPQ比VPSNet-Track高出1.6%。与VPSNet-FuseTrack [18]相比，我们的方法有轻微的改进，并且可以保持一致的视频分割，见补充材料中的图A4。原因是由于受限的内存，我们的VO模块只能获得1/8分辨率的光流和深度。

VIPER. VIPER包含大量高质量的视频全景分割注释，是另一个视频全景分割基准。我们遵循VPS [19]并采用其公开的训练/验证划分。我们从日场景中选择了10个视频，并使用每个视频的前60帧进行评估。表格4显示，与VPSNet-FuseTrack相比，我们使用PanopticFCN的方法在VIPER数据集上取得了更高的分数（+3.1 VPQ）。

4.3. Ablation Study

VPS-Enhanced VO Module. 在Panoptic-Enhanced VO模块中，我们使用DROID-SLAM [36]作为我们的基准线。"(VPS->VO)"表示添加了全景信息先验来增强VO基线。"(VPS->VO x2)"表示我们可以对VO模块进行两次迭代优化。"(VPS->VO x3)"表示在VO模块上进行三次循环迭代优化。表格6和图7显示，全景信息可以帮助提高DROID-SLAM在大多数高度动态的VKITTI2数据集上的准确性。循环迭代优化可以进一步改善结果。

VO-Enhanced VPS Module. 为了评估VO是否对VPS有所帮助，我们首先使用PanopticFPN [21]获得每帧的全景分割结果，然后使用RAFT [35]提供的光流信息进行帧间跟踪。这被设定为VPS的基准线。"(VPS baseline + w/fusion)"表示我们额外使用流估计来融合特征。"(VO->VPS + w/o fusion)"表示我们在基准线上使用了额外的深度、姿态和其他信息。"(VO->VPS)"表示我们额外融合了特征。"(VO->VPS x2)"表示我们使用循环迭代优化模块进一步增强了VPS结果。如表格5和补充材料中的图A3所示，VO-Enhanced VPS模块有效地提高了分割准确性和跟踪一致性。

Online Fusion in VO-Enhanced VPS Module. VO-Enhanced VPS模块中的在线融合。为了验证所提出的特征对齐损失（fea loss）和分割一致性损失（seg loss）的有效性，我们采用以下方法：'(VO->VPS + w/fusion + w/o fea loss)'表示我们在没有特征对齐损失的情况下训练在线融合模块。'(VO->VPS + w/fusion + w/o seg loss)'表示我们在没有分割一致性损失的情况下训练在线融合模块。表格5展示了这两个损失函数的有效性。”