作者
摘要
We present a simple, fully-convolutional model for real-time instance segmentation that achieves 29.8 mAP on MS COCO at 33.5 fps evaluated on a single Titan Xp, which is significantly faster than any previous competitive approach. Moreover, we obtain this result after training on only one GPU. We accomplish this by breaking instance segmentation into two parallel subtasks: (1) generating a set of prototype masks and (2) predicting per-instance mask coefficients. Then we produce instance masks by linearly combining the prototypes with the mask coefficients. We find that because this process doesn’t depend on repooling, this approach produces very high-quality masks and exhibits temporal stability for free. Furthermore, we analyze the emergent behavior of our prototypes and show they learn to localize instances on their own in a translation variant manner, despite being fully-convolutional. Finally, we also propose Fast NMS, a drop-in 12 ms faster replacement for standard NMS that only has a marginal performance penalty.
我们提出了一个简单的全卷积模型,用于实时实例分割,在单个 Titan Xp 上以 33.5 fps 的速度在 MS COCO 上实现 29.8 mAP,这比以前的任何竞争方法都快得多。此外,我们只在一个 GPU 上训练后获得了这个结果。我们通过将实例分割分解为两个并行的子任务来实现这一点:(1)生成一组原型掩码和(2)预测每个实例的掩码系数。然后我们通过将原型与掩码系数线性组合来生成实例掩码。我们发现,因为这个过程不依赖于 repooling,所以这种方法可以产生非常高质量的掩码,并免费表现出时间稳定性。此外,我们分析了原型的紧急行为,并表明它们学会了以翻译变体的方式自行定位实例,尽管它们是完全卷积的。最后,我们还提出了 Fast NMS,它是标准 NMS 的快速替代品,速度快 12 毫秒,仅具有边际性能损失。
Introduction
"Boxes are stupid anyway though, I’m probably a true believer in masks except I can’t get YOLO to learn them. ”
– Joseph Redmon, YOLOv3 [36]
创建实时实例分割算法需要什么?在过去的几年里,vision community在实例分割方面取得了长足的进步,部分原因是利用了成熟的对象检测领域的强大相似之处。最先进的实例分割方法,如 Mask RCNN [18] 和 FCIS [24],直接建立在 Faster R-CNN [37] 和 R-FCN [8] 等对象检测的进步基础之上。然而,这些方法主要侧重于性能而不是速度,使得场景缺乏与 SSD [30] 和 YOLO [35, 36] 等实时对象检测器平行的实例分割。在这项工作中,我们的目标是用一个快速的单阶段实例分割模型来填补这一空白,就像 SSD 和 YOLO 填补对象检测的空白一样。
然而,实例分割很难——比目标检测困难得多。 SSD 和 YOLO 等单级目标检测器能够通过简单地移除第二级并以其他方式弥补性能损失来加速现有的两级检测器(如 Faster R-CNN)。然而,相同的方法不容易扩展到实例分割。最先进的两阶段实例分割方法在很大程度上依赖于特征定位来生成掩码。也就是说,这些方法在某些边界框区域(例如,通过 RoIpool/align)“重新汇集”特征,然后将这些现在本地化的特征提供给它们的掩码预测