《YOLACT:Real-time Instance Segmentation》论文阅读

最新推荐文章于 2023-06-28 16:25:10 发布

FLY

最新推荐文章于 2023-06-28 16:25:10 发布

阅读量916

点赞数

分类专栏：实例分割文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/qq_38356387/article/details/104594118

版权

论文链接：https://arxiv.org/abs/1904.02689

一、简介

文章提出了一个简单的全卷积实时实例分割模型，在一台泰坦Xp上以33.5fps的速度在MSCOCO上达到29.8map。使用了两个平行步骤：（1）生成一组原型掩码和（2）预测每个实例的掩码系数。然后将原型与掩码系数线性组合生成实例掩码。文章发现，由于这一过程不依赖于重池化，因此产生了非常高质量且更具稳定性的掩码，此外，还提出了快速NMS。

二、引言

在过去的几年中，实例分割的进步，部分是借鉴了成熟的目标检测方法。最新的实例分割方法直接建立在快速目标检测技术的基础上，但这些方法主要关注性能，缺少实时性。文章的目标是用一个快速的、单阶段的实例分割模型来填补实时性空白。

然而，实例分割比目标检测困难得多。最新的两阶段实例分割方法很大程度依赖于特征定位来产生掩模，这些方法在一些边界框区域中“重新汇集”特征，然后将这些现在已本地化的特征馈送给它们的掩码预测器。这种方法本质上是顺序的，因此很难加速。其他并行执行以上步骤的单阶段的方法存在，但是它们在局部校准后需要大量的后处理，因此离实时性还很远。

为了解决这些问题，文章提出了一个实时实例分割框架YOLACT（You Only Look At CoefficienTs），它放弃了本地化步骤。相反，YOLACT将实例分割分成两个并行任务：（1）在整图上生成一个非本地原型掩码字典（2）预测每个实例的一组线性组合系数。然后对于每个实例，使用相应的预测系数线性组合原型，然后使用一个预定的边界框裁剪。文章表明，通过这种方式分割，网络学会了如何自己定位实例。

此外，由于原型掩码的数量与类别的数量无关（例如，可以有比原型更多的类别），YOLACT学习了一个分布式表示，在这个表示中，每个实例都用跨类别共享的原型组合来分割。这种分布式表示导致了原型空间中有趣的涌现行为：一些原型在空间上分割了图像，一些定位实例，一些在姿态轮廓中检测，一些对位置敏感的方向图进行编码，大多数能够对这些任务进行组合。

这种方法的优势。首先，速度很快：由于它的并行结构和极其轻量级的组装过程，yolact只为一级主干检测器增加了少量的计算开销，因此即使使用较为复杂基干网络也很容易达到每秒30帧；事实上，mask分支只需5毫秒就可以进行评估。第二，掩码是高质量的：由于充分利用了图像空间，而不会因repooling而失去任何质量，因此大型物体掩码的质量明显高于其他方法。最后，原型生成和掩模系数的概念几乎可以添加到任何现代目标检测器中。

文章主要贡献是首次在具有挑战性的MS COCO数据集[1]上具有竞争性结果的实时（>30fps）实例分割算法。此外，还分析了YOLACT的原型的涌现行为，并提供了实验来研究速度vs通过不同的后端架构、原型数量和图像分辨率获得的性能权衡。文章还提供了一种新的快速NMS方法，它比传统NMS快12毫秒，性能损失可以忽略。

三、相关工作

实例分割
（1）两阶段
两阶段的实例分割先区域提议，再对提议区域进行分类和分割。这些两阶段的方法需要为每个ROI重新汇集特性，并在随后的计算中处理它们，这使得它们即使在减小图像大小时也无法获得实时速度(30 fps)
（2）单阶段
单阶段实例分割方法生成位置敏感的映射，通过位置敏感池化[1]或结合语义分割逻辑和方向预测逻辑[2]组装成最终的掩码。这些方法仍然需要耗时的一些后处理，无法实时。

相比之下，文章的组装步骤要轻量级得多(只是一个线性组合)，并且可以作为一个gpu加速的矩阵-矩阵乘法来实现，非常快。
实时实例分割
虽然存在实时目标检测[3,4,5,6]和语义分割[7,8,9,10,11]等方法，但很少有研究涉及实时实例分割。Straight to Shapes[12]和Box2Pix[13]可以实时执行实例分割，但它们的精度远低于现代基线。事实上，Mask R-CNN[14]仍然是语义上具有挑战性的数据集中速度最快的实例分割方法之一。
原型
学习原型(又称词汇表或代码本)在计算机视觉领域已经得到了广泛的探索。经典表示包括文本[15]和可视化单词[16]，并通过稀疏性和位置优先进行改进[17,18,19]。其他人已经设计出用于目标探测的原型[20,21,22]。尽管相关，但以上这些工作使用原型来表示特征，而文章使用它们来组装掩码来进行实例分割。此外，文章所指原型是具体到每个图像，而不是整个数据集共享的全局原型。

四、YOLACT

图2为该网络的结构示意。
在这里插入图片描述
文章思想，在现存单阶段目标检测模型基础上增加一个mask分支，但是不依赖于明确的特征位置化处理步骤（如特征repooling（这里指的常见的ROI pooling、ROI Align等）），文章提出了两个简单平行分支，第一个分支使用一个FCN生成一组图像大小的“原型掩码”，这些掩码不依赖任何实例。第二个方法是在对象检测分支中增加一个额外的

最低0.47元/天解锁文章

FLY

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《YOLACT:Real-time Instance Segmentation》论文阅读

一、简介文章提出了一个简单的全卷积事实实例分割模型，在一台泰坦Xp上以33.5fps的速度在MSCOCO上达到29.8map。使用了两个平行步骤：（1）生成一组原型掩码和（2）预测每个实例的掩码系数。然后将原型与掩码系数线性组合生成实例掩码。文章发现，由于这一过程不依赖于重池化，因此产生了非常高质量且更具稳定性的掩码，此外，还提出了快速NMS。二、引言在过去的几年中，实例分割的进步，部分是...
复制链接

扫一扫