每天一篇论文 321/365 Incremental Class Discovery for Semantic Segmentation with RGBD Sensing

最新推荐文章于 2022-10-07 14:09:54 发布

流浪机器人

最新推荐文章于 2022-10-07 14:09:54 发布

阅读量600

点赞数

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/104129606

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

每天一篇论文汇总list

Incremental Class Discovery for Semantic Segmentation with RGBD Sensing

摘要

这项工作解决了开放世界语义分割的任务，使用RGBD感知来发现新的语义类。虽然现实世界中的对象类型很多，但现有的语义分割方法都是基于封闭世界的假设，只训练有限数量的对象类。针对一种更开放的方法，我们提出了一种增量学习新类的图像分割方法。该系统首先利用颜色和几何信息对每个RGBD帧进行分割，然后对分割后的RGBD帧进行信息聚合，形成一个单一的密集的3D环境图。分割的三维地图表示是我们方法的一个关键组成部分，因为它用于通过识别三维地图中没有语义标签的相干区域来发现新的对象类。在3D地图中使用相干区域作为原始元素，而不是传统元素，如Surfels或体素，也显著地降低了我们的方法的计算复杂度和存储器使用。因此，当在每一帧处递增地更新密集的3D地图时，它可以在10.7Hz下获得半实时性能。通过在NYUDv2数据集上的实验，证明了该方法能够正确地对已知类和未知类的对象进行聚类。并与现有的监督方法进行了定量比较，分析了各步骤的处理时间，以及各组成部分的影响。

在这里插入图片描述

贡献

本文的主要贡献如下：（1）在现有知识的基础上，我们提出了第一个语义映射系统，该系统能够正确地发现三维地图中已知对象和未知对象的簇（见图1）；（2）有效地处理聚类中的深层特征和几何线索，我们提出利用CNN的概率分布熵来估计CNN中深层特征的可靠性。然后利用估计的置信度对这两类特征进行加权；（3）我们提出在分配/更新特征和聚类时使用分段而不是元素（即surfel和体素）来有效地降低计算成本和空间复杂度。利用几何信息和颜色信息对三维地图中的目标建议进行改进。对于几何特征较差的区域（如墙上的图片）尤其重要；（5）我们通过在数据集中的类子集上训练cnn，并使用该方法发现类的其他子集，证明了该系统的有效性和效率。

方法

在这里插入图片描述
为了准确地关联同一类的对象或发现新的对象类，我们需要一种在三维分割图中估计对象段之间相似性的方法。虽然相似性的度量可以像计算颜色空间中的距离一样简单，但为了准确地确定对象类，需要进行更有意义的度量。此外，由于对象经常出现在一个连续视频的多个帧上，我们可以利用以前的帧来改进相似性度量。最后，由于记录前一帧的所有信息是昂贵的，我们需要一种有效的方法来存储过去的信息。
在这里插入图片描述

结果

在这里插入图片描述

通过测量处理时间和内存占用，证明了该方法的有效性。每个阶段的平均处理时间如表3所示。平均总处理时间为93.2ms（10.7Hz）。
采用分段聚类代替元素聚类的策略，可以有效地将3D分段聚类的平均处理时间缩短到13.4ms。三维地图的平均分段数为253.7。最昂贵的两个处理是U-Net的前向处理和特征更新。