关注我,发现生活之美,公众号【群函数】
本篇文章阅读大约需要10分钟
基本概念
实例分割是计算机视觉中的一项任务,其目标是对图像中的每个对象进行像素级别的标注,并为每个对象分配唯一的类别标识。例如,考虑一张包含多个人和汽车的街景图像。在语义分割中,我们只关心图像中的人和汽车的分割区域,而无需区分不同的人或汽车。然而,在实例分割中,我们不仅要知道哪些区域属于人和汽车,还要为每个人和汽车分配唯一的类别标识,以区分它们。
文章摘要
文章作者提出了一个简单、灵活且通用的物体实例分割框架Mask R-CNN。该方法部件在有效检测图像中的对象,同时生成每个实例的高质量分割掩码。具体操作为:通过在现有的用于边界框识别的分支旁边添加一个用于预测对象掩码的分支,扩展Faster R-CNN。此外,Mask R-CNN易于推广到其他任务。在COCO数据集的三个任务中展示了最佳结果,包括实例分割、边界框对象检测和人体关键点检测。作者希望文章简单而有效的方法能够作为一个坚实的基准,并有助于简化未来实例级别识别研究。
发表期刊(会议):
ICCV 2017 最佳论文/TPAMI2020
论文地址:
https://arxiv.org/pdf/1703.06870v3.pdf
代码地址:
https://github.com/facebookresearch/Detectron
实验条件:
没找到(我试验过1080TI是没问题的)
作者单位:
脸书AI研究院
前世今生
视觉领域在短时间内迅速提升了目标检测和语义分割的结果。在很大程度上,这些进展受到了强大的基准系统的推动,如Fast/Faster R-CNN [12, 36] 和 Fully Convolutional Network (FCN) [30] 分别用于目标检测和语义分割。这些方法在概念上直观,提供了灵活性和鲁棒性,同时具有快速的训练和推断时间。文章作者在这项工作中的目标是开发一个类似有助于实例分割的框架。
实例分割具有挑战性,因为它要求准确检测图像中的所有对象,同时精确分割每个实例。因此,它结合了传统计算机视觉任务,如目标检测(其目标是对个别对象进行分类并使用边界框进行本地化)和语义分割(其目标是将每个像素分类到一个固定的类别,而不区分对象实例)的元素。考虑到这一点,人们可能会认为需要复杂的方法才能取得良好的结果。
然而,作者展示了一个令人惊讶的简单、灵活且快速的系统可以超越先前的最先进实例分割结果。该方法被称为Mask R-CNN,通过在每个感兴趣区域(Region of Interest,RoI)上添加一个用于预测分割掩码的分支,与用于分类和边界框回归的现有分支并行扩展了Faster R-CNN [36](图1)。掩码分支是一个应用于每个RoI的小型FCN,以像素级别的方式预测分割掩码。Mask R-CNN在Faster R-CNN框架内实现和训练简单,这有助于实现各种灵活的体系结构设计。此外,掩码分支只会添加很小的计算开销,实现了快速的系统和快速的实验。
原则上,Mask R-CNN是Faster R-CNN的直观扩展,但适当构建掩码分支对于取得好的结果至关重要。最重要的是,Faster R-CNN并不是为网络输入和输出之间的像素对齐而设计的。
1)为了修复这种不对齐,作者提出了一个简单的、无量化的层,称为RoIAlign,它忠实地保留了精确的空间位置。尽管这似乎是一个细微的变化,但RoIAlign具有很大的影响:它通过相对10%到50%提高了掩码准确性,在更严格的定位度量下显示出更大的增益。
2)作者发现将掩码和类别预测解耦是至关重要的:我们独立预测每个类别的二进制掩码,而不考虑类别之间的竞争,并依赖于网络的RoI分类分支来预测类别。相比之下,FCN通常执行逐像素的多类别分类,将分割和分类耦合在一起,根据我们的实验证明,这对实例分割效果很差。
Mask R-CNN在COCO数据集的三个任务中展示了最佳结果,包括实例分割、边界框对象检测和人体关键点检测。因此,Mask R-CNN可以更广泛地被视为一个灵活的框架,用于实例级别的识别,并可以轻松扩展到更复杂的任务。
匠心独运
图. RoIAlign(感兴趣区域对齐):虚线网格表示一个特征图,实线表示一个RoI(在本例中为2×2的区块),点表示每个区块中的4个采样点。RoIAlign通过从特征图上附近的网格点进行双线性插值来计算每个采样点的值。在RoI、它的区块或采样点涉及的任何坐标上都不执行量化。
图。头部结构:扩展了两个现有的Faster R-CNN头部[19, 27]。左/右面板分别显示了ResNet C4和FPN骨干的头部,分别来自[19]和[27],并添加了一个掩码分支。数字表示空间分辨率和通道数。箭头表示卷积(conv)、反卷积(deconv)或全连接(fc)层,可以从上下文中推断出来(卷积保留空间维度,而反卷积增加它)。所有的卷积都是3×3,输出卷积是1×1,反卷积是2×2,步幅为2,我们在隐藏层中使用ReLU [31]。左边:'res5'表示ResNet的第五阶段,为了简化,我们修改了它,使第一个卷积在7×7的RoI上以步幅1操作(而不是像[19]中的14×14 / 步幅2)。右边:'×4'表示四个连续卷积的堆叠。
卓越性能
(实例分割)作者在表格1中将Mask R-CNN与实例分割领域的最先进方法进行了比较。我们模型的所有实例都优于先前最先进模型的基准变体。这包括MNC [10] 和FCIS [26],它们分别是COCO 2015和2016分割挑战的获胜者。不带花哨修饰的Mask R-CNN,使用ResNet-101-FPN骨干,胜过了FCIS+++ [26],后者包括多尺度训练/测试、水平翻转测试和在线难例挖掘(OHEM)[38]。虽然这超出了本工作的范围,但作者预计许多类似的改进对我们的模型也是适用的。
(姿态估计)作者的模型是一个单模型(ResNet-50-FPN),运行速度为每秒5帧。CMU-Pose+++ [6] 是2016年竞赛的获胜者,使用多尺度测试,与CPM [44] 进行后处理,并使用物体检测器进行过滤,累计增加了约5个点(在个人交流中澄清)。† : G-RMI 在COCO和MPII [1](25,000张图像)上进行训练,使用两个模型(Inception-ResNet-v2 用于边界框检测,ResNet-101 用于关键点)。
(关键点检测)在COCO minival 上的 Mask R-CNN 的增强关键点结果。每一行都在上一行的基础上添加了一个额外的组件。在这里,作者仅使用关键点注释,而没有使用掩码注释。为简洁起见,我们用 'R' 表示 ResNet,'X' 表示 ResNeXt。
总结展望
大神的方法简单而高效。作者希望文章简单而有效的方法能够作为一个坚实的基准,并有助于简化未来实例级别识别研究。
(大道至简!!!!!)
参考文献:
【1】K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask R-CNN," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 42, no. 2, pp. 386-397, Feb 2020.
关注我,发现生活之美
群函数以“二十七画生”做笔名征友,结识批志同道合的朋友,一起交流学习。