YOLACT: Real-time Instance Segmentation论文翻译

最新推荐文章于 2024-07-25 10:14:55 发布

追本溯源

最新推荐文章于 2024-07-25 10:14:55 发布

阅读量1.8k

点赞数 1

分类专栏：个人文章标签：计算机视觉语义分割

本文链接：https://blog.csdn.net/qq_41627847/article/details/90524052

版权

个人专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要
我们提出了一个简单的全卷积模型，用于实时实例分割，在单个Titan Xp上以33 fps在MS COCO上实现29.8 mAP，这比以前的任何竞争方法都要快得多。此外，我们只在一个GPU上训练后获得此结果。我们通过将实例分段分成两个并行子任务来实现这一点：（1）生成一组原型掩码和（2）预测每个实例的掩码系数。然后我们通过将原型与掩模系数线性组合来生成实例掩模。我们发现，因为这个过程不依赖于repooling，这种方法可以产生非常高质量的掩模，并且可以免费提供时间稳定性。此外，我们分析了原型的最新表现，发现他们学会定位实例以他们自有的一个translation variant manner，尽管是全卷积的。最后，我们还提出了Fast NMS，即以12毫秒的速度替代标准NMS，只有轻微的性能损失。
1.简介

“Boxes are stupid anyway though, I’m probably a true believer in masks except I can’t get YOLO to learn them.”
“无论如何，盒子都是愚蠢的，我可能更相信masks，除非我不能让YOLO学习它们。”

创建实时实例分割算法需要什么？在过去的几年中，视觉领域在实例分割方面取得了巨大的进步，部分是借鉴了完善的目标检测领域的强大功能。最先进的实例分割方法，如MASK-RCNN和FCIS直接建立在先进的目标检测如Faster R-CNN和R-FCN。然而，这些方法主要关注性能而不是速度，让场景缺乏实例分割类似于实时对象检测器(如SSD)。在这项工作中，我们的目标填补快速，one-stage这一实例分割模型空白，就像SSD和YOLO填充目标检测的差距一样。然而，实例分割比对象检测困难得多。像SSD和YOLO这样的One-stage目标检测器能够通过简单地移除the second stage 并以其他方式弥补丢失的性能来加速现有的 second stage detectors，如Faster R-CNN。然而，相同的方法不容易扩展到实例分割。最先进的second stage实例分割方法在很大程度上依赖于特征定位来生成掩模。也就是说，“repool”这些方法是以一些边界框区域为特征（例如，通过RoIpool / align），然后将这些现在已定位的特征提供给它们的掩模预测器。这种方法本质上是按顺序进行的，因此很难加速。确实存在像FCIS那样并行执行这些步骤的 One-stage方法，但它们在定位后需要大量的后处理，因此仍然远非实时。
在这里插入图片描述
图1：COCO上各种实例分割方法的速度 - 性能权衡。据我们所知，我们的第一个实时（超过30 FPS）方法在COCO test-dev上有大约30个掩模mAP。

为了解决这些问题，我们提出了YOLACT1，这是一个舍弃明确定位步骤的实时实例分割框架。相反，YOLACT将实例分割分解为两个并行任务：（1）在整个图像上生成非局部原型掩模的字典，（2）预测每个实例的一组线性组合系数。然后从这两个组件生成全图像实例分割是很简单的：对于每个实例，使用相应的预测系数线性组合原型，然后使用预测的边界框进行裁剪。我们表明，通过以这种方式进行分割，网络学习如何自己定位实例掩码，其中在视觉上，空间上和语义上相似的实例在原型中看起来是不同的。
此外，由于原型掩模的数量与类别的数量无关（例如，可能存在比原型更多的类别），因此YOLACT学习分布式表示，其中每个实例用跨类别共享的原型的组合来分段。这种分布式表示导致原型空间中有趣的紧急行为：一些原型在空间上对图像进行分区，一些本地化实例，一些检测实例轮廓，一些编码位置敏感的方向图（类似于通过对FCIS中的位置敏感模块进行硬编码而获得的那些），大多数都是这些任务的组合.(see Figure 5)
这种方法也有几个实际的优点。首先，它的速度很快：由于其并行结构和极轻的组装过程，YOLACT仅为one-stage backbone 探测器增加了少量的计算开销，即使使用ResNet-101也很容易达到30 fps 。其次，masks是高质量的：由于masks使用图像空间的全部范围而不会因repooling而损失任何质量，因此我们用于大型物体的maska质量明显高于其他方法（见图7）。最后，它是一般的：生成原型和掩模系数的想法可以添加到几乎任何现代目标探测器。
作为奖励，以这种方式分解实例分割也与假设在人类视觉中起重要作用的腹侧（“什么”）和背侧（“哪里”）流松散相关。线性系数和相应的检测分支可以被认为是识别单个实例（“什么”），而原型掩模可以被视为在空间中定位实例（“在哪里”）。与two-stage“局部化 - 分割”类型方法相比，这更接近人类视觉，尽管仍然远离人类视觉。
我们的主要贡献是第一个实时（> 30 fps）实例分割算法，在具有挑战性的MS COCO数据集上具有竞争结果（见图1）。此外，我们分析了YOLACT原型的紧急行为，并提供了实验来研究使用不同主干架构，原型数量和图像分辨率获得的速度与性能之间的权衡。我们还提供了一种新颖的快速NMS方法，比传统NMS快12ms，性能损失可以忽略不计。我们将公开提供代码。
2.相关工作
实例分割鉴于其重要性，已经进行了大量研究工作以推动实例分割的准确性。Mask-RCNN 是一种代表性的 two-stage实例分割方法，首先生成候选感兴趣区域（ROI），然后分类并在第二阶段对这些ROI进行分类。后续工作试图通过例如丰富FPN特征或解决掩模的置信分数与其定位精度之间的不兼容性来提高其准确性。这些 two-stage方法需要为每个ROI重新汇集功能并使用后续计算对其进行处理，这使得即使在降低图像大小时也无法获得实时速度（30 fps）（参见表2c）。
One-stage实例分割方法生成位置敏感地图，这些地图被组合成具有位置敏感池的最终掩模，或者组合语义分段logits和方向预测logits 。虽然在概念上比Two-stage方法更快，但它们仍然需要重新计算或其他非平凡的计算（例如，掩模投票）。这严重限制了他们的速度，使他们远离实时。相比之下，我们的组装步骤更轻量级（只是线性组合），并且可以实现为一个GPU加速矩阵矩阵乘法，使我们的方法非常快。
最后，一些方法首先执行语义分割，然后进行边界检测，像素聚类，或者学习嵌入以形成实例掩码。同样，这些方法具有多个阶段和/或涉及成本过大的聚类过程，这限制了它们对于实时应用的可行性。
实时实例分割
虽然存在实时目标检测和语义分割方法，但很少有工作集中在实时实例分割上。Straight to Shapes 可以用30 fps的学习形状编码进行实例分割，但其准确性远远不如现代基线。Box2Pix 依靠极轻量级骨干探测器（GoogLeNet v1 和SSD ）与手工设计算法相结合，在Cityscapes上获得10.9 fps ，在KITTI上获得35 fps。然而，他们没有报告更具挑战性和语义丰富的COCO数据集的结果，该数据集与KITTI和Cityscapes中的8个相比有80个类别。此外，他们观察到从语义上简单的数据集（KITTI）到更复杂的数据集（城市景观）的相对性能大幅下降，因此更加困难的数据集（COCO）将构成挑战。事实上，Mask R-CNN [16]仍然是语义上具有挑战性的数据集的最快实例分割方法之一（5502像素图像上的13.5 fps;参见表2c）。
在这里插入图片描述
图2：YOLACT体系结构蓝色/黄色表示原型中的低/高值，灰色节点表示未训练的功能，本例中为。我们使用ResNet-101 + FPN将此架构基于RetinaNet 。

Prototypes
Learning prototypes（又名词汇或码本）已经在计算机视觉中得到了广泛的探索。经典表征包括textons和visual words，通过稀疏性和位置先验进行。其他人设计了用于物体检测的原型。虽然相关，但这些工作使用Prototypes来表示特征，而我们使用它们来组装masks以进行实例分割。此外，我们学习了特定于每个图像的Prototypes，而不是整个数据集共享的全局Prototypes。
3. YOLACT

我们的目标是以与Mask R-CNN相同的方式将掩模分支添加到现有的一阶段对象检测模型中

Faster R-CNN ，没有明确的局部化步骤（例如，功能重新存档）。为此，我们将实例分割的复杂任务分解为两个更简单的并行任务，这些任务可以组合以形成最终的掩码。第一个分支使用FCN 来生成一组图像大小的“prototype masks”，它们不依赖于任何一个实例。第二个向目标检测分支添加额外的head 以预测用于编码prototype 空间中的实例表示的每个锚的“掩码系数”的向量。最后，对于NMS中存活的每个实例，我们通过线性组合这两个分支的工作来为该实例构造掩码。
基本原理我们以这种方式进行实例分割主要是因为掩模在空间上是连贯的;即，彼此接近的像素可能是同一实例的一部分。虽然卷积（conv）层自然地利用了这种相干性，但是完全连接（fc）层却没有。
这就产生了一个问题，因为 one-stage目标探测器为每个锚点产生类和盒子系数作为fc层的输出.2像Mask R-CNN这样的Two stage方法通过使用定位步骤（例如RoIAlign）解决了这个问题，它保留了特征的空间相干性，同时也允许掩模成为转换层输出。然而，这样做需要模型的重要部分等待第一阶段RPN提出定位候选，从而引起显着的速度惩罚。
因此，我们将问题分解为两个并行的部分，利用fc层，它们擅长产生语义向量，和conv层，它们擅长产生空间相干掩模，分别产生“掩模系数”和“原型掩模” 。然后，因为原型和掩模系数可以独立计算，所以超过骨干检测器的计算开销主要来自组装步骤，该组装步骤可以实现为单个矩阵乘法。通过这种方式，我们可以在特征空间中保持空间一致性，同时仍然是one-stage和快速的。
3.1. Prototype Generation
原型生成分支（protonet）预测整个图像的一组k个原型掩模。我们将protonet实现为FCN，其最后一层有k个通道（每个原型一个）并将其连接到骨干要素层（参见图3进行说明）。虽然这个公式类似于标准语义分段，但它的不同之处在于我们没有在原型上表现出明显的损失。相反，所有监督都来自组装后的最终掩模损失。
2为了证明这是一个问题，我们开发了一个“fc-mask”模型，它为每个锚点生成掩码，作为fc层的重新形成输出。正如我们在表2c中的实验所示，简单地将掩模添加到单级模型中作为fc输出仅获得20.7 mAP，因此非常不足。
在这里插入图片描述
图3：Protonet体系结构标签表示图像大小的特征尺寸和通道。箭头表示转换层，除了最终转换为。尺寸的增加是一个上采样，然后是转换。灵感来自[16]中的掩模分支。

我们注意到两个重要的设计选择：从更深的主干特征中获取protonet可以产生更强大的掩模，更高分辨率的原型可以在更小的物体上获得更高质量的掩模和更好的性能。因此，我们使用FPN ，因为它最大的特征层（在我们的例子中是;见图2）是最深的。然后，我们将其上采样到输入图像的四分之一尺寸，以提高小物体的性能。

最后，我们发现重要的是protonet’s 的输出是无界的，因为这允许网络在原型上产生大的，过于强大的激活，这是非常有意义的（例如，明显的背景）。因此，我们可以选择使用ReLU或无非线性跟随protonet。我们选择ReLU来获得更多可解释的prototypes。
3.2. Mask Coefﬁcients
典型的基于锚的物体探测器在其预测头中具有两个分支：一个分支用于预测c类置信度，另一个用于预测4个边界框回归量。对于掩模系数预测，我们简单地添加并行的第三个分支来预测k个掩模系数，一个对应于每个prototype。因此，我们不是生成每个锚的4+C系数，而是生成4+C+K。
然后，对于非线性，我们发现能够从最终掩模中减去原型是很重要的。因此，我们将tanh应用于k个掩模系数，它在非线性上产生更稳定的输出。这种设计选择的相关性在图2中是显而易见的，因为在不允许减法的情况下，两种掩模都不可构造。
3.3. Mask Assembly3.3。
为了生成实例掩码，我们将prototype 分支和掩模系数分支的工作结合起来，使用前者与后者的线性组合作为系数。然后，我们通过sigmoid非线性来产生最终的掩模。这些操作可以使用单个矩阵乘法和sigmoid有效地实现：
在这里插入图片描述
其中P是原型掩码的hwk矩阵，C是掩码系数的n*k矩阵，用于n个幸存NMS和得分阈值的实例。其他更复杂的组合步骤是可能的;但是，我们通过基本的线性组合保持简单（和快速）。

损失我们使用三个损失来训练我们的模型：分类损失Lcls，框回归损失Lbox和掩模损失Lmask，都与与SSD中相同的方式定义。然后，为了计算掩模损耗，我们简单地在组合掩模M和ground truth掩模在这里插入图片描述之间采用像素方式的二进制交叉熵。
裁剪Masks为了保留prototypes中的小目标，我们在评估期间使用预测的边界框裁剪最终Masks。在训练过程中，我们使用地面真实边界框进行裁剪，并将Lmask除以ground truth边界框区域。

在这里插入图片描述

3.4. Emergent Behavior
我们的方法可能看起来令人惊讶，因为围绕实例分割的一般共识是因为FCN是平移不变的，所以任务需要在FCIS中添加转换方差。因此像FCIS 和Mask R-CNN 这样的方法尝试明确地添加平移方差，无论是通过方向图和敏感位置的 repooling，还是通过将掩模分支放在the second stage，所以它不必处理局部化实例。在我们的方法中，我们添加的唯一转换方差是使用预测的边界框裁剪最终的掩码。但是，我们发现我们的方法也可以在不对中型和大型物体进行裁剪的情况下工作，因此这不是裁剪的结果。相反，YOLACT通过其原型中的不同激活来学习如何自己局部化实例。
为了了解这种可能的，首先要注意的是，图5中的纯红色图像（图像a）的原型激活实际上在没有填充的FCN中是不可能的。因为卷积输出到单个像素，如果图像中的任何位置的输入相同，则conv输出中的结果将是相同的。另一方面，像ResNet这样的现代FCN中的一致填充边缘使网络能够分辨出像素距离图像边缘的距离。从概念上讲，它可以实现这一目的的一种方法是使多个层依次将填充的0从边缘向中心扩展（例如，使用像[1,0]这样的卷积核）。这意味着，例如，ResNet本质上是 translation variant,，我们的方法大量使用该属性（图像b和c表现出清晰的translation variance）。
在这里插入图片描述
图5：Prototype Behavior在不同图像中激活相同的六个原型。原型1,4和5是分区图，其边界清晰地定义在图像a中，原型2是左下方向图，原型3分割出背景并提供实例轮廓，原型6个分段离开地面。

我们观察到许多原型在图像的某些“分区”上激活。也就是说，它们仅激活位于隐式学习边界一侧的对象。在图5中，原型1,4,5和6是这样的示例（其中6分区为背景而不是前景）。通过组合这些分区映射，网络可以区分同一语义类的不同（甚至重叠）实例。例如，在图像d中，通过从原型4中减去原型5，可以将绿伞与红色伞分开。
此外，作为学习对象，prototypes 是可压缩的。也就是说，如果protonet将多个prototypes 的功能合并为一个，则掩码系数分支可以了解哪些情况需要哪些功能。例如，在图5中，原型2对对象的左下侧进行编码，但对于图像中间的垂直条带中的实例也更强烈。Prototype 4是一个分区原型，但在左下角的实例上也是最强烈的。原型5类似，但右侧为实例。这就解释了为什么在实践中，即使只有32个原型，模型的性能也不会下降（见表2b）。

4. Backbone Detector

对于我们的主干检测器，我们优先考虑速度和功能丰富性，因为预测这些原型和系数是一项艰巨的任务，需要良好的功能才能做好。因此，我们的骨干探测器的设计紧跟RetinaNet 并强调速度。
YOLACT检测器
我们使用ResNet-101和FPN作为默认的特征主干，基本图像大小为550×550。我们不保留长宽比，以获得每个图像的一致评估时间。和RetinaNet一样，我们对FPN进行了修改，从P5开始，连续3×3步2个conv层，不产生P2，不产生P6和P7，在每个锚点放置3个具有长宽比的[1，1/2，2]。P3的锚点面积为24像素平方，后续每一层的比例尺都是前一层的两倍(由此产生比例尺[24，48，96，192，384])。对于每个Pi上的预测头，我们有一个3×3的conv被三个分支共享，然后每个分支并行得到自己的3×3 conv。与RetinaNet相比，我们的预测头设计(见图4)更轻，速度更快。我们将光滑l1损失应用于箱形回归器的训练中，并采用与SSD相同的方法对encode box regressio坐标进行编码。为了训练分类预测，我们使用了带有c个正标签和一个背景标签的softmax交叉熵，并使用带有3:1 neg:pos比的OHEM选择训练实例。因此，不像RetinaNet，我们不使用focal loss，我们发现在这情况下行不通。
通过这些设计选择，我们发现这个骨干网比SSD更好，更快地使用ResNet-101 ，具有相同的图像尺寸。

5.其他改进

我们还讨论了其他改进，这些改进要么是对性能产生很小影响的提高速度，要么是在没有速度惩罚的提高性能。
Fast NMS在为每个锚点生成边界框回归系数和类别置信度之后，像大多数目标检测器一样，我们执行NMS来抑制重复检测。在许多以前的工作[33,34,28,35,16,25]中，NMS是顺序执行的。也就是说，对于数据集中的每个c类，对通过置信下降的检测到的框进行排序，然后对于每次检测，移除所有具有较低信度的信息，而不是具有大于某个阈值的IoU重叠信息。虽然这种顺序方法在大约5 fps的速度下足够快，但它成为获得30 fps的巨大障碍（例如，5 fps时的10 ms改善导致0.26 fps的提升，而30 fps时的改进为10 ms）以12.9 fps的速度提升）。
在这里插入图片描述
图6：COCO测试开发集的YOLACT评估结果。该基本型号在33.0 fps时达到29.8 mAP。所有图像的信度阈值都设置为0.3。

为了确定传统NMS的顺序性，我们引入了Fast NMS，这个版本的NMS，每个实例都可以决定并行保存或丢弃。为此，我们只允许已经删除的检测来抑制其他检测，这在传统NMS中是不可能的。这种放松使我们能够在大多数GPU加速库中提供的标准矩阵运算中完全实现Fast NMS。
为了执行Fast NMS，我们首先为前n个检测计算cnn成对IoU矩阵X，按每个c类的分数降序排序。GPU上的批量排序很容易获得，计算IoU可以很容易地进行矢量化。然后，我们通过检查是否存在具有大于某个阈值t的相应IoU的任何更高得分的检测来找到要移除的检测。我们通过首先将X的下三角形和对角线设置为0来有效地实现这一点：
在这里插入图片描述
这可以在一个 batched triu call，然后采用列式最大值：
计算每次检测的最大IoU值的矩阵K.最后，用t（K<t）对该矩阵进行阈值处理将指示为每个类保留哪些检测。
由于relaxation，Fast NMS具有去除slightly too many boxes的效果。然而，与速度的显着增加相比，由此引起的性能损失可以忽略不计（参见表2a）。在我们的代码库中，Fast NMS比传统NMS的Cython实现快11.8 ms，而性能仅降低0.1 mAP。在Mask R-CNN benchmark suite中，Fast NMS比传统NMS的CUDA实现快16.5 ms，性能损失仅为0.3 mAP。

语义分割损失
虽然快速NMS用速度交换了少量性能，但有一些方法可以在不降低速度的情况下提高性能。其中一种方法是在训练期间使用未在测试时执行的模块对模型施加额外损失。这有效地增加了功能丰富度，同时没有速度惩罚。

因此，我们使用仅在训练期间评估的图层在我们的特征空间上应用语义分割损失。请注意，因为我们通过实例注释构造了这种损失的基本事实，所以这并不严格地捕获语义分段（即，我们不强制每个像素标准的一个类）。为了在训练期间创建预测，我们只需将带有c输出通道的1x1 conv层直接附加到我们主干中的最大特征映射（）。因为每个像素可以分配给多个类，我们使用sigmoid和c通道而不是softmax和c+1。用这种损失的训练结果有0.4 mAP的提升。
在这里插入图片描述
图7：掩模质量我们的掩模通常比掩模R-CNN 和FCIS 的掩模质量更高，因为掩模尺寸更大，缺少特征再冷却。这些图像在29.2 mAP版本的FCIS和35.7 mAP版本的Mask R-CNN上进行评估。

6.结果
我们使用任务的标准指标报告MS COCO实例分割任务的结果。我们在train2017上训练，并在val2017和test-dev上进行评估。
6.1. Instance Segmentation Results
我们首先将YOLACT与表1中MS COCO的test-dev设置的最先进方法进行比较。因为我们的主要目标是速度，所以我们与其他单一模型结果进行比较，没有测试时间增加。我们报告在单个Titan Xp上计算的所有速度，因此一些列出的速度可能与原始论文中报告的速度不同。

YOLACT-550提供有竞争力的实例分割性能，同时是COCO上前一个最快实例分割方法的3.8倍。我们还注意到我们方法的性能与其他方法相比有一个有趣的差异，因为性能支持我们在图7中的定性结果：观察到YOLACT-550和掩模R-CNN之间在50％重叠阈值处的差距为9.5 AP处于75％IoU阈值时为6.6。这与FCIS的性能不同，例如，与掩模R-CNN相比，间隙是一致的（AP值分别为7.5和7.6）。此外，在最高（95％）IoU阈值时，我们的表现优于Mask R-CNN，其中1.6 AP与1.3 AP相比。
我们还报告了表1中我们模型的替代配置的数字。除了基本的550 * 550图像尺寸模型，我们还训练了400 * 400（YOLACT-400）和700 * 700（YOLACT-700）模型，相应地调整这些模型的锚尺度（Sx = S550/500*x ）。降低图像大小会导致性能大幅下降，这表明实例分割自然需要更大的图像。然后，如预期的那样，提高图像尺寸会显着降低速度，但也会提高性能。
除了ResNet-101的基础框架，我们还测试ResNet-50和DarkNet-53 以获得更快的结果。如果更高的速度是更好的，我们建议使用ResNet-50或DarkNet-53而不是降低图像尺寸，因为这些配置的性能比YOLACT-400好得多，而只是略慢。
6.2. Mask Quality
因为我们生产了一个尺寸为138 * 138的最终掩模，并且因为我们直接从原始特征创建掩模（没有转换步骤来转换并可能使特征错位），所以我们的大型物体掩模的质量明显高于Mask R-CNN的掩模。 [16]和FCIS [22]。例如，在图7中，YOLACT产生一个干净地跟随手臂边界的掩模，而FCIS和Mask R-CNN都有更多噪声。此外，尽管总体上5.9 mAP更差，但在95％的IoU阈值下，我们的基本模型达到1.6 AP而Mask RCNN达到1.3。这表明repooling确实导致掩模质量的量化降低。
6.3. Temporal Stability
虽然我们只使用静态图像训练我们的模型并且不应用任何时间平滑，但我们发现模型在视频上产生比Mask R-CNN更多的时间上稳定的掩模，Mask R-CNN即使在物体完全静止时也会在帧上抖动。我们认为我们的Mask 在时间上更稳定，部分原因在于它们是（b）原型选择（a）Fast NMS快速NMS仅略微执行（c）加速基线我们在方法中与其他k进行比较。YOLACT比标准NMS差，而通过调整它们的速度精度大约12种基线方法对于变化的k是稳健的，所以我们有更高的质量（因此帧之间的错误空间更小），但主要是因为我们的模型是一个阶段。以两阶段方法生产的面具在很大程度上取决于他们在第一阶段的区域提案。与我们的方法相比，即使模型预测跨帧的不同框，原型也不会受到影响，从而产生更多时间稳定的掩模。
在这里插入图片描述
表1：掩模性能我们将其与其他最先进的掩模mAP方法和COCO测试开发速度的方法进行了比较。我们用主题网络深度特征表示骨干架构，其中R和D分别表示ResNet [17]和DarkNet [34]。我们的基础型号YOLACT-550与ResNet-101相比，具有竞争性掩模mAP的前一种最快方法快3.8倍。
在这里插入图片描述

6.4 实施细节
我们用数据集ImageNet 预训练权重在一个GPU上批量大小为8训练所有模型。我们发现这是一个足够的批量大小来使用batch norm，因此我们将pretrained batch norm unfrozen但不添加任何额外的bn层。我们使用的重量衰减和0.9的动量，以初始学习速率从SGD训练800k迭代，并在迭代280k，600k，700k和750k处除以10。我们还使用SSD中使用的所有数据增强进行训练[28]。
7. Discussion
尽管我们的masks 质量更高，并具有良好的属性，如时间稳定性，但我们在整体性能方面落后于最先进的实例分割方法，尽管速度要快得多。大多数错误只是由检测器中的错误引起的：错误分类，盒子未对准等。但是，我们已经确定了由YOLACT的掩码生成算法引起的两个典型错误。
局部化失败
如果场景中的一个点中有太多对象，则网络可能无法在其自己的原型中本地化每个对象。在这些情况下，网络将输出更接近前景mask的内容，而不是组中某些对象的实例分割。在图6的第一个图像（第1行第1列）中可以看到这方面的一个例子，红色飞机下的蓝色卡车没有正确定位。
Leakage
我们的网络利用了在组装后裁剪masks的事实，并且不会尝试抑制裁剪区域外的噪音。当边界框准确时，这可以工作，但是当它没有时，噪声会蔓延到实例掩模中，从裁剪区域外部产生一些“leakage”。当两个实例彼此远离时，也会发生这种情况，因为网络已经知道它不需要局部化远程实例 - 裁剪将负责处理它。但是，如果预测的边界框太大，掩模也会包含一些远处实例的掩模。例如，图6（第2行第4列）表现出这种leakage，因为掩模分支认为三个skiers足够远而不必将它们分开。
在这里插入图片描述
图8：使用与之前相同的参数设置COCO的test-dev设置的更多YOLACT评估结果。为了进一步支持YOLACT隐式地局部化实例，我们选择具有相同类的相邻实例的示例。

使用像MS R-CNN 中的掩码误差下加权方案可以减轻这些问题，其中可以忽略表现出这些错误的掩码。但是，我们将此留待将来解决。

追本溯源

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
YOLACT: Real-time Instance Segmentation论文翻译

摘要我们提出了一个简单的完全卷积模型，用于实时实例分割，在单个Titan Xp上以33 fps在MS COCO上实现29.8 mAP，这比以前的任何竞争方法都要快得多。此外，我们只在一个GPU上训练后获得此结果。我们通过将实例分段分成两个并行子任务来实现这一点：（1）生成一组原型掩码和（2）预测每个实例的掩码系数。然后我们通过将原型与掩模系数线性组合来生成实例掩模。我们发现，因为这个过程不依赖于...
复制链接

扫一扫

专栏目录