CVPR'24 HighLight | 用于视觉重定位的地图相对姿态回归（Oxford）

最新推荐文章于 2024-10-08 21:16:33 发布

自动驾驶之心

最新推荐文章于 2024-10-08 21:16:33 发布

阅读量213

点赞数

文章标签：回归数据挖掘人工智能机器学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247600554&idx=4&sn=6e334cbc45cdb5f21de7178d2a3f3789&chksm=cf781431648ca054c469c3d775965e95f20c30a3374dd2fe43ad3a70b3ae8dc803de5ccb4d28&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『SLAM』技术交流群

论文作者 | 3D视觉之心

编辑 | 自动驾驶之心

pose回归网络能够预测查询图像相对于已知环境的相机姿态。在这个方法家族中，绝对姿态回归（APR）最近在位置误差的几厘米范围内表现出了令人满意的准确性。APR网络将场景几何结构隐式地编码在其权重中。为了获得高准确性，它们需要大量的训练数据，而实际上这些数据只能使用新颖视图合成在长达数天的过程中创建。这个过程需要针对每个新场景一次又一次地重复。

这里提出了一种新的姿态回归方法，即地图相对姿态回归（Map-Relative Pose Regression，简称Marepo），它以场景无关的方式满足姿态回归网络对数据的渴望。将姿态回归器与场景特定的地图表示进行条件关联，使其姿态预测相对于场景地图。这使得能够在数百个场景中训练姿态回归器，以学习场景特定地图表示与相机姿态之间的通用关系。我们的地图相对姿态回归器可以立即应用于新的地图表示，或者经过几分钟的微调即可获得最高精度。方法在两个公共数据集（室内和室外）上远远超过了以前的姿态回归方法。

（大拇指往上滑，点击最上方的卡片关注我，整个操作只会花你 1.328 秒，然后带走未来、所有、免费的干货，万一有内容对您有帮助呢～）

神经网络如今已经几乎占领了计算机视觉的所有领域，但仍至少有一项任务令其感到棘手，那就是视觉重定位。什么是视觉重定位呢？给定一组mapping图像及其姿态（以共同的坐标系统表示），构建出场景表示。随后，给定一张查询图像，估计其相对于场景的姿态，即位置和朝向。

视觉重定位的成功方法依赖于预测图像与场景之间的对应关系，这可以通过匹配方法或直接回归方法来实现，然后利用传统的鲁棒算法，如PnP和RANSAC来求解姿态。

从另一个角度来看，基于姿态回归的方法试图通过单个前馈神经网络从单张图像中推断姿态，从而无需借助传统的姿态求解算法来实现视觉重定位。mapping数据被视为一个训练集，其中相机的外部参数作为监督信息。一般来说，姿态回归方法有两种类型，但与基于对应关系的方法相比，它们在准确性上都存在挑战。

绝对姿态回归（APR）方法涉及为每个单独的场景训练一个专用的姿态回归器，从而能够预测该特定场景的相机姿态。尽管场景的坐标空间可以隐式地编码在神经网络的权重中，但绝对姿态回归器在姿态估计准确性方面表现不佳，这主要是由于每个场景可用的训练数据通常有限，且难以泛化到未见过的视图。

相对姿态回归是姿态回归方法的另一种形式。这种回归器被训练来预测两张图像之间的相对姿态。在典型的推理场景中，回归器被应用于由一张未见过的查询图像和一张来自mapping集的图像（通常通过最近邻类型的匹配来选择）组成的图像对；然后，将预测的相对姿态与mapping图像的已知姿态相结合，以得出查询的绝对姿态。这些方法可以在大量与场景无关的数据上进行训练，但它们的准确性仍然有限：两张图像之间的度量姿态只能近似预测。

鉴于这些限制，我们提出了一种新的绝对姿态回归方法：地图相关姿态回归（Map-Relative Pose Regression，简称Marepo）。将特定于场景的表示（编码每个目标场景的尺度度量参考空间）与通用的、与场景无关的绝对姿态回归网络相结合。利用一个快速训练的场景坐标回归模型作为我们的场景表示，并一次性预先训练一个姿态回归网络，该网络学习场景坐标预测与相应相机姿态之间的关系。这种通用关系使我们能够在数百个不同的场景上训练姿态回归器，有效地解决了绝对姿态回归模型训练数据有限的问题。另一方面，由于在定位时，我们的姿态回归器依赖于特定场景的地图表示，因此它能够预测准确的尺度度量姿态，这与相对姿态回归器不同。

Marepo网络结构

Marepo方法的主要架构由两个组件组成：（1）一个基于CNN的场景几何预测网络G，它将输入图像的像素映射到3D场景坐标；（2）一个基于Transformer的地图相关姿态回归器M，它根据场景坐标估计相机姿态。理想情况下，网络G被设计为将每个输入图像与特定于场景的3D信息相关联，因此需要对每个由该方法处理的新场景进行某种训练过程。相反，地图相关姿态回归器M是一个与场景无关的模块，经过大量数据训练，可以泛化到未见过的地图。

在图2中展示了所提出的网络架构。给定来自场景S的图像I，将其输入到模型中，模型输出一个姿态。这个过程可以表述为：

在这个公式中，表示由网络G为场景S预测的图像到场景坐标的映射。这里，是特定于场景S的几何预测网络G的输出，它接收输入图像I作为输入，并输出相应的3D场景坐标。这些坐标表示了图像中每个像素点在三维场景空间中的位置。是与输入图像I相关联的相机内参矩阵。

这种公式化使得我们的方法既类似于标准的绝对姿态回归（APR），也类似于场景坐标回归（SCR）。它通过神经网络的前向传递生成姿态，同时，场景几何预测网络直接从每个输入图像回归出3D坐标。与标准的APR不同，我们的方法具有完整的几何推理能力，能够建立图像与场景之间的联系。而与SCR方法不同，它不需要传统的、非确定性的RANSAC阶段来推断姿态。

从理论上讲，任何能够从输入图像中预测3D场景坐标的算法都可以作为G的候选，因为我们用于执行姿态回归的后续Transformer（M）并不依赖于先前的组件。这意味着我们的方法可以灵活地集成不同的场景几何预测网络，只要它们能够输出有效的3D坐标。

这种灵活性使得我们的方法在实际应用中具有很大的潜力。我们可以根据不同的场景和任务需求选择合适的场景几何预测网络，以实现对不同场景的准确姿态估计。同时，由于我们避免了传统的RANSAC阶段，我们的方法在计算效率上也具有优势，能够更快地处理大量的图像数据。

地图相关姿态回归器M以预测的场景坐标图张量和对应的相机内参作为输入，利用动态位置编码将这些信息嵌入到更高维度的特征中，并最终估计出相机姿态, 在训练过程中，还预测了中间监督的和。

1) Dynamic Positional Encoding

与许多用于高级任务的视觉Transformer（ViTs）不同，这些Transformer通常直接对输入的RGB图像（或更高维度的特征）进行操作，我们的Transformer旨在解释与真实世界物理紧密相关的准确3D几何信息。相机在其帧中捕获的内容与其内参严格相关；因此，我们提出使用一种基于每个独立传感器的位置编码，使我们能够以通用的方式训练主要的Transformer块，即独立于相机标定参数的方式。

我们的位置编码方案包含两个不同组件的融合：(1) 一个相机感知的2D位置嵌入，将每个预测的场景坐标与其对应的像素位置相关联；(2) 一个3D位置嵌入，将实际的3D场景坐标值嵌入到高频域中。

2) Re-Attention for Deep Transformer

如图3左侧所示，地图相关姿态回归架构的核心由三个块组成，每个块包含四个自注意力Transformer，共计十二个Transformer。在实现中，我们使用了线性Transformer ，因为它们将每层的计算复杂度从输入长度的二次方降低到线性（即场景坐标图的分辨率）。

由于动态位置编码仅在网络开始处输入，发现在网络深度增加时，信息流的强度会减弱。为了解决这个问题，添加了一个称为“再注意”的机制，每四个块引入一次残差连接。通过实验，发现这种做法非常有效，它使网络能够更快地收敛，并导致更好的泛化能力。

3) Pose Regression Head

marepo架构的最后一个组件是姿态回归头。其结构相对简单：首先，一个由三个1×1卷积层组成的残差块，后面接全局平均池化，生成一个单一的嵌入向量，代表整个输入场景坐标图。然后，这个嵌入向量被传递给一个小型的多层感知器（MLP，共3层），该MLP直接输出一个10维的相机姿态表示。这个姿态表示随后可以被解包成平移和旋转两部分：平移由四个齐次坐标表示；旋转则被编码为一个6D向量，代表坐标系的两个未归一化的轴，后续通过归一化和叉积操作形成完整的旋转矩阵。

4）Fine-Tuning the Pose Regressor

如前所述，提出的基于地图的相对姿态回归器主要由两个主要组件构成：一个初始的场景特定网络，它能够预测每个像素的度量场景坐标；以及一个与场景无关的回归器M，它利用由场景坐标编码的几何信息来预测相机姿态。后者只需要在大规模数据集上进行一次预训练，然后即可直接用于每个新的目标场景，无需重新训练。与其他采用传统端到端图像到姿态协议训练的APR方法相比，这种混合方法的效果非常出色，训练时间大大缩短，仅需数小时或数天。

尽管如此，也探索了是否可以对基于Transformer的回归器应用一个场景特定的适应阶段，以进一步提高方法的性能。在这个方案中，对于每个新评估的场景，在训练了场景特定的坐标回归器之后，会使用相同的损失函数，在相同的mapping图像上对姿态回归器M进行微调。从资源利用的角度来看，对Transformer进行微调是非常高效的,仅需对训练数据集进行两次遍历（通常耗时1到10分钟，取决于帧数），我们的方法就可以在已经处于业界领先水平的基础上进一步提高性能。

实验结果

参考

[1] Map-Relative Pose Regression for Visual Re-Localization.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频