0. Abstract
用动态卷积的思想来生成实例敏感的滤波器来编码实例信息,不依赖box及RoI crop和特征对齐。用FCOS检测实例类别,然后用参数动态生成的mask head在原型mask和相对坐标图结合图上卷积生成相应实例mask。
1. Motivation
Mask R-CNN仍然是实例分割任务的top解决方法,它将实例分割分成两个阶段的任务--先检测后分割。首先用目标检测器如Faster R-CNN预测每个实例的框,然后使用ROIAlign操作将每个实例的ROI featuer map裁剪出来,最后为了预测这些实例ROI区域的前背景使用一个复杂的FCN结构。然而,基于ROI的方法有一些缺点。
- 因为ROI是由实例的框决定的,对于那些不规则形状的物体,它们的ROI feature map可能包含背景和其他实例。这一问题可以通过旋转的ROI来减轻。
- 为了区别前景实例和背景及背景中的其他实例,mask头部需要大的感受野导致需要更深的网络。
- ROI通常具有不同的大小,为了使用更有效的batch计算,通常需要将不同大小的ROI feature map缩放到同一尺度。例如Mask R-CNN中使用14x14大小的ROI然后输出28x28的分割结果,这与实际需要的分辨率差很多。
在计算机视觉中最接近实例分割的任务是语义分割,FCNs网络在语义分割中已取得巨大成功。FCNs也在很多像素级的预测任务上取得了效果,比如low-level的去噪,超分辨;mid-level的光流估计,轮廓检测;high-level的目标检测,深度估计和计数。然而大多数基于FCNs的实例分割方法效果都不如基于ROI的好,这是为什么呢?作者观察将FCNs应用于实例分割的主要问题是相似的图像appearance可能需要不同的预测,但FCNs结构不能做到这一点。简单理解就是实例分割需要平移变换性。例如两个人A和B具有相似的图像appearance,当预测实例A的mask时需要将B预测为背景。因此ROI操作用于将实例的ROI裁剪出来。本质上