论文:SOLO: Segmenting Objects by Locations

作者

在这里插入图片描述

摘要

我们提出了一种新的、非常简单的实例分割方法。与许多其他密集预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性。为了预测每个实例的掩码,主流方法要么遵循“先检测后分割”策略(例如,Mask R-CNN),要么先预测嵌入向量,然后使用聚类技术将像素分组到单个实例中。我们通过引入“实例类别”的概念,从全新的角度看待实例分割的任务,它根据实例的位置和大小为实例中的每个像素分配类别,从而很好地将实例分割转换为单次分类- 可解决的问题。我们展示了一个更简单灵活的实例分割框架,具有强大的性能,达到与 Mask R-CNN 相当的准确度,并且在准确度上优于最近的单次实例分割器。我们希望这个简单而强大的框架可以作为除实例分割之外的许多实例级识别任务的基准。

Introduction

在这里插入图片描述

实例分割是具有挑战性的,因为它需要的所有对象的图像以正确的分离,同时也语义在像素级分割每个实例。对象的图像中的属于一组固定的语义类别,但是实例的数量而变化。其结果是,语义分割可容易地配制成致密的每个像素分类问题,而它是具有挑战性的预测实例标识直接跟随相同的范例。
为了克服这一障碍,最近的例证分割方法可分为两类,即自上而下和自下而上的范例。前者的方法,即“检测 - 则 - 分段”,首先检测边界框,然后分段在每个边界框的实例掩模。后一种方法学的亲和关系,通过推开属于不同的实例像素,在同一实例中拉靠近像素分配一个嵌入矢量到每个像素。然后,将分组后处理是需要单独的实例。这两种模式是分步或间接的,这无论是在很大程度上依赖于准确的边界框的检测或依赖于每个像素嵌入学习和分组处理。
相比之下,我们的目标是直接段例如口罩,完整实例面具注释,而不是面具的箱子或额外的像素两两关系的监督之下。我们开始重新思考一个问题:什么是图像中的对象实例之间的根本区别是什么?取挑战MS COCO数据集[16]例如。总共有36,在验证子集780点的对象,对象对98.3%具有中心距大于30个像素。至于对象对其余部分1.7%,其中40.5%大小具有比大于1.5×。最后,在大多数情况下两个实例的图像中的任一具有不同的中心位置或具有不同的对象大小。这一观察结果让人怀疑我们是否可以直接通过中心位置和对象大小区分情况?
在密切相关的领域,语义分割,现在占主导地位的范式利用完全卷积网络 (FCN) 来输出具有 N 个通道的密集预测。每个输出通道负责其中一个语义类别(包括背景)。语义分割旨在区分不同的语义类别。类似地,在这项工作中,我们建议通过引入“实例类别”的概念来区分图像中的对象实例,即量化的中心位置和对象大小,这使得能够按位置分割对象,因此我们方法的名称,SOLO
Location
图像可以划分为 S ×S 个单元格,从而导致 S2 个中心位置类。根据对象中心的坐标,将对象实例分配给其中一个网格单元,作为其中心位置类别。请注意,网格在概念上用于为每个像素分配位置类别。每个输出通道负责其中一个中心位置类别,相应的通道映射应预测属于该位置的对象的实例掩码。因此,结构几何信息自然地保存在高宽维度的空间矩阵中。与 DeepMask [24] 和 TensorMask [4] 不同,它们以密集的滑动窗口方式运行并在固定的局部补丁中分割对象,我们的方法自然地为所有规模的实例输出准确的掩码,而不受(锚)框位置的限制和秤。<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值