《YOLACT:Real-time Instance Segmentation》论文阅读

论文链接:https://arxiv.org/abs/1904.02689

一、简介

文章提出了一个简单的全卷积实时实例分割模型,在一台泰坦Xp上以33.5fps的速度在MSCOCO上达到29.8map。使用了两个平行步骤:(1) 生成一组原型掩码和(2)预测每个实例的掩码系数。然后将原型与掩码系数线性组合生成实例掩码。文章发现,由于这一过程不依赖于重池化,因此产生了非常高质量且更具稳定性的掩码,此外,还提出了快速NMS。

二、引言

在过去的几年中,实例分割的进步,部分是借鉴了成熟的目标检测方法。最新的实例分割方法直接建立在快速目标检测技术的基础上,但这些方法主要关注性能,缺少实时性。文章的目标是用一个快速的、单阶段的实例分割模型来填补实时性空白。

然而,实例分割比目标检测困难得多。最新的两阶段实例分割方法很大程度依赖于特征定位来产生掩模,这些方法在一些边界框区域中“重新汇集”特征,然后将这些现在已本地化的特征馈送给它们的掩码预测器。这种方法本质上是顺序的,因此很难加速。其他并行执行以上步骤的单阶段的方法存在,但是它们在局部校准后需要大量的后处理,因此离实时性还很远。

为了解决这些问题,文章提出了一个实时实例分割框架YOLACT(You Only Look At CoefficienTs),它放弃了本地化步骤。相反,YOLACT将实例分割分成两个并行任务:(1)在整图上生成一个非本地原型掩码字典(2)预测每个实例的一组线性组合系数。然后对于每个实例,使用相应的预测系数线性组合原型,然后使用一个预定的边界框裁剪。文章表明,通过这种方式分割,网络学会了如何自己定位实例。

此外,由于原型掩码的数量与类别的数量无关(例如,可以有比原型更多的类别),YOLACT学习了一个分布式表示,在这个表示中,每个实例都用跨类别共享的原型组合来分割。这种分布式表示导致了原型空间中有趣的涌现行为:一些原型在空间上分割了图像,一些定位实例,一些在姿态轮廓中检测,一些对位置敏感的方向图进行编码,大多数能够对这些任务进行组合。

这种方法的优势。首先,速度很快:由于它的并行结构和极其轻量级的组装过程,yolact只为一级主干检测器增加了少量的计算开销,因此即使使用较为复杂基干网络也很容易达到每秒30帧;事实上,mask分支只需5毫秒就可以进行评估。第二,掩码是高质量的:由于充分利用了图像空间,而不会因repooling而失去任何质量,因此大型物体掩码的质量明显高于其他方法。最后,原型生成和掩模系数的概念几乎可以添加到任何现代目标检测器中。

文章主要贡献是首次在具有挑战性的MS COCO数据集[1]上具有竞争性结果的实时(>30fps)实例分割算法。此外,还分析了YOLACT的原型的涌现行为,并提供了实验来研究速度vs通过不同的后端架构、原型数量和图像分辨率获得的性能权衡。文章还提供了一种新的快速NMS方法,它比传统NMS快12毫秒,性能损失可以忽略。

三、相关工作

  • 实例分割
    (1) 两阶段
    两阶段的实例分割先区域提议,再对提议区域进行分类和分割。这些两阶段的方法需要为每个ROI重新汇集特性,并在随后的计算中处理它们,这使得它们即使在减小图像大小时也无法获得实时速度(30 fps)
    (2) 单阶段
    单阶段实例分割方法生成位置敏感的映射,通过位置敏感池化[1]或结合语义分割逻辑和方向预测逻辑[2]组装成最终的掩码。这些方法仍然需要耗时的一些后处理,无法实时。

    相比之下,文章的组装步骤要轻量级得多(只是一个线性组合),并且可以作为一个gpu加速的矩阵-矩阵乘法来实现,非常快。

  • 实时实例分割
    虽然存在实时目标检测[3,4,5,6]和语义分割[7,8,9,10,11]等方法,但很少有研究涉及实时实例分割。Straight to Shapes[12]和Box2Pix[13]可以实时执行实例分割,但它们的精度远低于现代基线。事实上,Mask R-CNN[14]仍然是语义上具有挑战性的数据集中速度最快的实例分割方法之一。

  • 原型
    学习原型(又称词汇表或代码本)在计算机视觉领域已经得到了广泛的探索。经典表示包括文本[15]和可视化单词[16],并通过稀疏性和位置优先进行改进[17,18,19]。其他人已经设计出用于目标探测的原型[20,21,22]。尽管相关,但以上这些工作使用原型来表示特征,而文章使用它们来组装掩码来进行实例分割。此外,文章所指原型是具体到每个图像,而不是整个数据集共享的全局原型。

四、YOLACT

图2为该网络的结构示意。
在这里插入图片描述
文章思想,在现存单阶段目标检测模型基础上增加一个mask分支,但是不依赖于明确的特征位置化处理步骤(如特征repooling(这里指的常见的ROI pooling、ROI Align等)),文章提出了两个简单平行分支,第一个分支使用一个FCN生成一组图像大小的“原型掩码”,这些掩码不依赖任何实例。第二个方法是在对象检测分支中增加一个额外的

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值