【SIM】框监督实例分割的语义感知实例掩码生成

最新推荐文章于 2025-11-24 15:28:47 发布

原创

最新推荐文章于 2025-11-24 15:28:47 发布 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #opencv

SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation
是一篇近年CVPR通过的一篇关于分割的论文，将语义分割与实例分割相结合，提出了新的研究方向。
论文链接：https://arxiv.org/abs/2303.08578

1.摘要
仅使用边界框注释的弱监督实例分割近年来引起了广泛的研究关注。目前的大多数工作都利用低级图像特征作为额外的监督，而没有明确地利用对象的高级语义信息，当前景对象与背景或附近的其他对象有相似的外观时，这将变得无效。提出了一种新的盒监督实例分割方法，基于生成范式的实例掩码（SIM）。我们构建了相邻像素之间的局部成对亲和力，将一组类别级特征质心作为原型来识别前景对象，并为它们分配语义级伪标签。考虑到语义感知原型不能区分同一语义的不同实例，我们提出了一种自校正机制来纠正错误激活的区域，同时增强正确的区域。此外，为了处理对象之间的遮挡，我们为弱监督的实例分割任务定制了复制-粘贴操作，以增加具有挑战性的训练数据。
2.介绍
实例分割是计算机视觉的基本任务之一，在自动驾驶、图像编辑、人机交互等领域有着广泛的应用。随着深度学习[6,12,34,38]的发展，实例分割的性能得到了显著的提高。然而，训练鲁棒分割网络需要大量具有像素级标注的数据，这消耗了大量的人力和人力资源。为了减少对密集注释的依赖，基于廉价监督的弱监督实例分割，如边界框[14,21,36]、点[8]和图像级标签[1,18]，近年来引起了越来越多的研究关注。
在本文中，我们关注于框监督实例分割（BSIS），其中边界框为像素级预测任务提供了粗糙的监督信息。为了提供像素级的监督，传统的方法[10,19]通常利用现成的提议技术，如MCG [30]和GrabCut [31]，来创建伪实例掩码。然而，这些方法的多个迭代步骤的训练管道是麻烦的。最近的几项工作，[14,36]通过将像素之间的成对亲和性作为额外的监督来实现端到端训练。虽然这些方法取得了很好的性能，但它们严重依赖于低级图像特征，如颜色对[36]，并且简单地假设具有相似颜色的近端像素可能有相同的标签。当前景对象具有与背景或其他周围的物体相似的外观时，将导致混淆，如图1。因此，只使用低级图像线索进行监督，因为它们不足以代表物体的固有结构。

语义感知实例掩码（SIM）生成方法的管道。
(a)显示了仅使用低级别亲和监督产生的掩模预测，其中前景与背景严重混合。(b)和©展示了用我们构建的原型获得的语义感知掩码，它们可以感知对象的实体，但无法分离相同语义的不同实例。(d)显示了由我们提出的自校正模块所校正的最终实例伪掩模。
基于高级语义信息可以揭示对象实例的内在属性，从而为分割模型训练提供有效的监督，我们提出了一种新的语义感知实例掩码生成方法，即SIM，来明确地利用对象的语义信息。为了区分颜色相似但语义不同的近端像素（请参见图1 (a)），我们构建了一组具有代表性的数据集级原型，即不同类别的特征质心，以进行前景/背景分割，产生语义感知的伪掩模（见图1 (b)）。这些从大量训练数据中提取的原型可以捕获对象的结构信息，使更全面的语义模式理解，这是对相邻像素的亲和监督的补充。但是，如图1 ©所示，这些原型无法分离相同语义的实例，特别是对于重叠的对象。因此，我们开发了一种自校正机制来校正假阳性，同时提高真阳性前景对象的置信度，从而产生更精确的实例感知伪掩模，如图1 (d).所示
值得一提的是，我们生成的伪掩模可以与分割模型共同进化，而不需要在以前的方法[10,21]中进行繁琐的迭代训练过程。此外，考虑到现有的弱监督实例分割方法由于缺乏地面真实掩模，只对罕见类别和重叠对象提供非常有限的监督，我们提出了一种在线弱监督复制粘贴方法来创建一个组合数量的增强训练样本。总的来说，这项工作的主要贡献可总结如下：
通过开发一种具有语义感知能力的实例掩码生成机制，提出了一种新的BSIS框架。具体来说，我们构建了一组具有代表性的原型来探索对象实例的内在属性，并识别完整的实体，这比低级特征产生更可靠的监督。
设计了一个自校正模块，使语义感知伪掩模成为实例感知模。错误激活的区域将被减少，正确激活的区域将被提高，使训练更加稳定，并逐步提

最低0.47元/天解锁文章