【论文笔记】Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual

最新推荐文章于 2023-11-04 09:30:00 发布

phy12321

最新推荐文章于 2023-11-04 09:30:00 发布

阅读量851

点赞数

分类专栏：相机重定位语义 SLAM 文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/phy12321/article/details/120396453

版权

相机重定位同时被 2 个专栏收录

37 篇文章 51 订阅

订阅专栏

语义 SLAM

11 篇文章 5 订阅

订阅专栏

针对视觉定位的语义分割网络, ICCV 2019

论文工作的动机：

using more segmentation labels to create more discriminative, yet still robust, representations for semantic visual localization

本文主要针对Long-term的视觉定位任务，提出了一个精细化分割网络，可以对场景进行精细化fine-grained的分割，得到相比于现有语义分割网络的分割结果更加丰富的语义标签。
同时，网络对于四季交替等场景中的外观变化足够鲁棒，不同季节对同一场景的语义标签输出是一致的，实验证明该网络能够提升视觉定位任务的性能。
此外，为了减少语义标注的工作量，作者使用了无监督训练的方式。
在这里插入图片描述

如下图，使用k-means得到含有丰富分割标签的训练数据，使用带有2D-2Dcorrespondence关系的数据集实现对同一场景能够输出一致的分割标签。
在这里插入图片描述

对于视觉定位任务，实际上语义信息不是必须的，只要有一致、稳定的分割标签即可。本文的目的只是输出更加精细的分割标签用于视觉定位，并非得到语义。根据论文的训练模式，训练数据的语义标签信息是根据k-means得到的，而k-means没有提取语义的能力。论文探究了网络输出的类别ID（cluster indices，横轴）与数据集的标准语义标签（横轴）之间的相关性：
在这里插入图片描述

可知：

当网络只分割20类时，第19类与标准分割标签的互信息都很高，说明该类丢失了语义信息。
vegetation类别与很多网络输出的大部分cluster的互信息都很高，原因在于CMU dataset中植被较多，分割为多种cluster能够提升辨别性，提升视觉定位的能力。
有很多预测的cluster index与对应的语义标签并不相关，说明网络权重从初始值（从语义分割数据集上的权重初始化而来）产生了较大变化。

实验验证

使用的定位方法：SSMC（simple semantic match consistency）： 基于特征点进行2D-3D匹配，其中3D坐标根据SFM重建得到。然后根据分割结果去除标签不一致的2D-3D匹配对，然后用P3PRansac求解位姿。
在这里插入图片描述

由上图可知:

使用100个cluster数目精度最佳（cluster过少或者过多都会影响定位精度）。
在语义分割任务上对网络进行预训练，相比于在分类任务上，效果更好。
使用fine-grained 分割的结果相比于使用标准语义分割的结果更好。
使用了2D-2D correspondences信息构建的Loss项对定位效果由显著提升
在其他数据集上的泛化性不佳，原因在于2D-2D correspondences信息对数据集是有特异性的，因此这个结果并不意外。
Repetition of clustering: Following the method developed by Caron et al. [15] the clustering is repeated after a set number of training iterations. Interestingly, we noticed that not resetting the network actually gives slightly better performance, see entry marked with * in Table 2. We attribute this to the network, pretrained for semantic segmentation, retains semantic information more easily without resetting.Further investigation of this is left as future work

与其他SOTA方法的对比:
在这里插入图片描述

SSMC（simple semantic match consistency）
GSMC：加入了几何验证的SSMC，即在ransac时，对一个假设位姿评分的方法是基于2D-3D的label一致性计算的。
PFSL：基于位姿先验的粒子滤波位姿估计方法。
使用以上三种定位方法，结合FGSNS的分割结果进行定位，与现有的SOTA方法进行对比.

结论：

改进后的定位方法的性能与SOTA基本接近(improves localization performance closing the performance gap to the current state-of-the-art) 证明了论文所提出的精细化分割思想在定位任务上的有效性，其对于算法在四季变换、视角变换下的定位鲁棒性有明显的提升。