Paper link: https://arxiv.org/abs/2001.00309
GitHub (PyTorch, 基于Detectron2): https://github.com/aim-uofa/adet
Introduction
实例分割任务需要执行dense per-pixel prediction,在完成像素级语义分类的同时,需要鉴别出目标实例鉴。基于深度学习的实例分割模型,通常包括Top-down架构与Bottom-up架构,两种结构各有优劣势。文章提出的BlendMask实例分割模型,以Anchor-free FCOS检测器为主体结构,通过融合High-level实例信息与Low-level逐像素预测结果,达到了SOTA的分割效果。mask mAP最高能到41.3,实时版本BlendMask mAP性能和速度分别为34.2和25FPS (1080ti GPU)。
-
Top-down架构:
Top-down模型先通过一些方法 (如RPN、detector等)获取bbox,然后从high-level特征区域中提取ROI特征,进而对区域内的像素进行mask提取,这种模型一般有以下几个问题:
- 由于使用了high-level特征图,位置信息容易损失;
- 特征和mask之间的局部一致性会丢失,容易导致mis-align;
- 冗余的特征提取,不同的bbox会重新提取一次mask;
以Mask-RCNN为例:
- 基于Faster-RCNN,属于two-stage架构,RPN获取的bbox用于提取ROI特征;
- mask分支与detection分支共享ROIAlign features;
- Bottom-up架构:
Bottom-up模型先对整图进行逐像素预测(per-pixel prediction),每个像素生成一维特征向量 (embedding)。由于进行的是逐像素级预测、且stride很小,局部一致性和位置信息可以