VISUAL LOCALIZATION USING SPARSE SEMANTIC 3D MAP
作者:Tianxin Shi⋆†Shuhan Shen⋆†Xiang Gao⋆†Lingjie Zhu
研究机构:中科院自动化所,中国科学院大学
自己的想法:
本文使用图像检索、SFM进行3D建模、语义分割、RANSAC求解等技术提出了一个相机定位的混合pipeline,达到了SOTA的性能
论文提到目前可用的数据集有NLCT,KITTI,RobotCar Seasons dataset等。
之所以使用语义信息,是因为语义信息基本不受光照、气候、季节等因素的干扰。
论文提出的定位pipeline分为5个步骤:
-
使用SFM技术(COLMAP)对场景图像数据集进行建模
-
通过DeepLabV3+对图像数据集进行分割得到语义信息,然后将其加入到3D模型中的点云信息中,并去除动态目标,得到稀疏的语义3D模型Ms
-
根据查询图像 I Q I_Q IQ进行检索,检索模型为NetVLAD。得到前K个最近邻图像集合 I R I_R IR
-
对每张 I R i I_R^i IRi,通过最近邻搜索和lowes ratio test 计算 I Q I_Q IQ与之的2D-2D匹配,图中蓝色。
图中红色为
I
Q
I_Q
IQ与3D模型之间的2D-3D匹配,绿色为
I
R
i
I_R^i
IRi与3D模型之间的匹配。
而语义模型Ms提供了图中绿色的2D-3D匹配,据此可以得到红色的2D-3D匹配,然后可以计算出 I Q I_Q IQ相对于Ms的相机位姿。
接着将所有符合一定条件的3D点云投影到 I Q I_Q IQ中,衡量其语义一致性。
投影条件:
距
离
要
求
:
d
l
<
‖
v
‖
<
d
u
,
角
度
要
求
:
∠
(
v
,
v
m
)
<
θ
其
中
v
=
估
计
的
相
机
中
心
坐
标
−
3
D
点
云
坐
标
距离要求:d_l<‖v‖< d_u,\\ 角度要求:∠(v,v_m)< θ\\ 其中v = 估计的相机中心坐标 \ - \ 3D点云坐标
距离要求:dl<‖v‖<du,角度要求:∠(v,vm)<θ其中v=估计的相机中心坐标 − 3D点云坐标
衡量语义一致性:
统计所有投影后的语义标签与投影前的标签相同的点的数目,归一化后即为语义得分。得分越高说明检索质量越高。
-
使用加权RANSAC进行位姿估计
得到所有候选K近邻图像的语义得分之后,将所有K近邻图像 I R i I_R^i IRi的2D-3D匹配与 I Q I_Q IQ放在一起,来自同一近邻图像 I R i I_R^i IRi的2D-3D匹配具有相同的得分,即该图像的语义得分。归一化所有2D-3D匹配的得分,以此作为RANSAC采样的概率或者权值。
相比直接去掉低分的候选近邻图像的2D-3D匹配,这种方法仅使用语义信息点的匹配作为位子估计的依据,更加鲁棒。
数据集:RobotCar Seasons 2018,三个阈值: (0.25m,2◦), (0.5m,5◦) and (5m,10◦)
前两个是基于几何结构的定位方法,后面三个是基于图像检索的方法,倒数第二个是本文使用常规RANSAC(不加权)、没有语义信息的方法。没有与基于学习的方法进行对比,理由是精度不高。