针对视觉定位的语义分割网络, ICCV 2019
论文工作的动机:
using more segmentation labels to create more discriminative, yet still robust, representations for semantic visual localization
本文主要针对Long-term的视觉定位任务,提出了一个精细化分割网络,可以对场景进行精细化fine-grained的分割,得到相比于现有语义分割网络的分割结果更加丰富的语义标签。
同时,网络对于四季交替等场景中的外观变化足够鲁棒,不同季节对同一场景的语义标签输出是一致的,实验证明该网络能够提升视觉定位任务的性能。
此外,为了减少语义标注的工作量,作者使用了无监督训练的方式。
如下图,使用k-means得到含有丰富分割标签的训练数据,使用带有2D-2Dcorrespondence关系的数据集实现对同一场景能够输出一致的分割标签。
对于视觉定位任务,实际上语义信息不是必须的,只要有一致、稳定的分割标签即可。本文的目的只是输出更加精细的分割标签用于视觉定位,并非得到语义。根据论文的训练模式,训练数据的语义标签信息是根据k-means得到的,而k-means没有提取语义的能力。论文探究了网络输出的类别ID(cluster indices,横轴)与数据集的标准语义标签(横轴)之间的相关性:
可知:
- 当网络只分割20类时,第19类与标准分割标签的互信息都很高,说明该类丢失了语义信息。
- vegetation类别与很多网络输出的大部分cluster的互信息都很高,原因在于CMU dataset中植被较多,分割为多种cluster能够提升辨别性,提升视觉定位的能力。
- 有很多预测的cluster index与对应的语义标签并不相关,说明网络权重从初始值(从语义分割数据集上的权重初始化而来)产生了较大变化。
实验验证
使用的定位方法:SSMC(simple semantic match consistency): 基于特征点进行2D-3D匹配,其中3D坐标根据SFM重建得到。然后根据分割结果去除标签不一致的2D-3D匹配对,然后用P3PRansac求解位姿。
由上图可知:
- 使用100个cluster数目精度最佳(cluster过少或者过多都会影响定位精度)。
- 在语义分割任务上对网络进行预训练,相比于在分类任务上,效果更好。
- 使用fine-grained 分割的结果相比于使用标准语义分割的结果更好。
- 使用了2D-2D correspondences信息构建的Loss项对定位效果由显著提升
- 在其他数据集上的泛化性不佳,原因在于2D-2D correspondences信息对数据集是有特异性的,因此这个结果并不意外。
- Repetition of clustering: Following the method developed by Caron et al. [15] the clustering is repeated after a set number of training iterations. Interestingly, we noticed that not resetting the network actually gives slightly better performance, see entry marked with * in Table 2. We attribute this to the network, pretrained for semantic segmentation, retains semantic information more easily without resetting.Further investigation of this is left as future work
与其他SOTA方法的对比:
- SSMC(simple semantic match consistency)
- GSMC:加入了几何验证的SSMC,即在ransac时,对一个假设位姿评分的方法是基于2D-3D的label一致性计算的。
- PFSL:基于位姿先验的粒子滤波位姿估计方法。
使用以上三种定位方法,结合FGSNS的分割结果进行定位,与现有的SOTA方法进行对比.
结论:
改进后的定位方法的性能与SOTA基本接近(improves localization performance closing the performance gap to the current state-of-the-art) 证明了论文所提出的精细化分割思想在定位任务上的有效性,其对于算法在四季变换、视角变换下的定位鲁棒性有明显的提升。