摘要
地图是基于图像的相机定位和视觉SLAM系统的关键组成部分。本文MapNet除了图像之外还利用廉价且无处不在的感官输入,如视觉里程计和GPS,并将它们融合在一起以进行相机定位。
本文还提出了一种新的相机旋转参数化方法。
分别在7-Scenes和Oxford RobotCar数据集上测试
介绍
本文做出了如下贡献
1.大多数用于相机定位的DNN都是使用标有摄像机绝对姿势的翻译图像来训练的。在MapNet中,我们展示了如何在训练中把观察对之间的几何约束作为一个额外的损失项。这些约束来自视觉里程计(VO)或者GPS或者IMU读数的旋转约束等等,我们把这些称之为几何感知学习。
2.将MapNet和PGO融合。MapNet+PGO。
3.我们提出了一个新的相机旋转参数化,即单位四元数的对数。
建议的方法
MapNet的核心是一个从输入图像回归绝对相机姿势的DNN。
MapNet在成对的姿势预测之间实施约束。MapNet+通过利用同一场景中额外的无标签视频或同步的GPS读数上的视觉测距(VO)所表达的几何约束来改进训练后的MapNet。
在推理过程中采用移动窗口PGO
用DNN进行相机位姿回归
本文对PoseNet做了一些修改。首先,我们使用ResNet-34,并对其进行了修改,在最后一个conv层之后引入了一个全局平均池化层,然后是一个具有2048个神经元的fc层,一个ReLU和p=0.5的dropout。之后是最后的fc层,输出6个DoF的相机姿势。
其次本文将相机方向参数化为单位四元数的对数。四元数是3-DoF旋转的过度参数化,需要对输出的四元数进行归一化,但往往导致更差的性能。
单位四元数的对数log q有三个维度,没有过