【论文笔记】基于语义地图重建的视觉重定位方法 VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP && 2019

最新推荐文章于 2024-05-06 20:58:13 发布

phy12321

最新推荐文章于 2024-05-06 20:58:13 发布

阅读量1.8k

点赞数 1

分类专栏：相机重定位

本文链接：https://blog.csdn.net/phy12321/article/details/106646989

版权

37 篇文章 49 订阅

订阅专栏

VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP

作者：Tianxin Shi⋆†Shuhan Shen⋆†Xiang Gao⋆†Lingjie Zhu

研究机构：中科院自动化所，中国科学院大学

本文使用图像检索、SFM进行3D建模、语义分割、RANSAC求解等技术提出了一个相机定位的混合pipeline，达到了SOTA的性能

论文提到目前可用的数据集有NLCT，KITTI，RobotCar Seasons dataset等。

论文方法介绍

之所以使用语义信息，是因为语义信息基本不受光照、气候、季节等因素的干扰。

在这里插入图片描述

论文提出的定位pipeline分为5个步骤：

在这里插入图片描述
图中红色为 $I_Q$ 与3D模型之间的2D-3D匹配，绿色为 $I_R^i$ 与3D模型之间的匹配。

而语义模型Ms提供了图中绿色的2D-3D匹配，据此可以得到红色的2D-3D匹配，然后可以计算出 $I_Q$ 相对于Ms的相机位姿。

接着将所有符合一定条件的3D点云投影到 $I_Q$ 中，衡量其语义一致性。

投影条件：
$距离要求：d_l<‖v‖< d_u,\\ 角度要求：∠(v,v_m)< θ\\ 其中v = 估计的相机中心坐标 \ - \ 3D点云坐标$
衡量语义一致性：

统计所有投影后的语义标签与投影前的标签相同的点的数目，归一化后即为语义得分。得分越高说明检索质量越高。

使用加权RANSAC进行位姿估计

得到所有候选K近邻图像的语义得分之后，将所有K近邻图像 $I_R^i$ 的2D-3D匹配与 $I_Q$ 放在一起，来自同一近邻图像 $I_R^i$ 的2D-3D匹配具有相同的得分，即该图像的语义得分。归一化所有2D-3D匹配的得分，以此作为RANSAC采样的概率或者权值。

相比直接去掉低分的候选近邻图像的2D-3D匹配，这种方法仅使用语义信息点的匹配作为位子估计的依据，更加鲁棒。

实验内容以及分析

在这里插入图片描述
前两个是基于几何结构的定位方法，后面三个是基于图像检索的方法，倒数第二个是本文使用常规RANSAC（不加权）、没有语义信息的方法。没有与基于学习的方法进行对比，理由是精度不高。

关注