Full Image Segmentation 问题定义
全图分割的目标是把一张图中所有的物体 (all objects) 和背景 (stuff regions) 分割出来。
Workflow
首先用基于极端点的分割得到初始分割结果,然后用 scribbles 进行交互式修正。
Contribution and Advantage (明确在Full Image Segmentation中)
- 考虑在全图分割的任务中,标注者关注整张图中最大错误的地方,而不是给定类别的最大错误的地方 —— 基于 Mask-RCNN 的全图交互式分割框架。
- 交互可以在不同类别物体之间共享 —— 有效的 annotation 编码和 concat 方式。
- 确保区域在图像域中具有 compete for space 的效果 —— pixel-wise instance-aware loss function。
- 相比如 FCN-style 的交互式分割框架,这种 Mask-RCNN 框架更加节省计算资源。
算法
算法框架
- 输入:图像,每一类物体对应的annotation map (由极端点和交互涂抹得到), 每一类物体对应的 box (由极端点得到)。
- 和 Mask-RCNN 的区别,由于可以直接通过极端点得到 bounding box,因此不用 RPN 来进行 bbx proposal。
- 考虑每一类之间相互影响,因此 canvas projection 将 ROI feature 得到的结果反投影到原图上,然后计算 sigmoid 得到概率:
Annotation Map
对于每个区域,
- 首先生成和原图大小相同的二值的 positive annotation map S i S_i Si,直接用对应该区域的极端点和修正涂抹生成。
- negative annotation map 直接将所有和该区域无关的内容求和。
- 然后 concatenate 上述两种 annotation map 得到最终结果:
- 然后再采用 RoI-align 对 F i F_i Fi 进行裁剪。
注意:这样构建 annotation map 的方式能够使得交互信息在不同 region 和 stuff 之间共享。
Instance-aware Loss Function
总结
- 这篇文章着眼于全图分割这个任务,因此衍生出如何利用 multi-objects 和 stuff regions 之间的关系 —— 这一重要问题。因此才有了 Mask-RCNN 的框架来联合处理 ( annotation map 的生成 和 re-projection 都联合了不同 objects 之间的关系)。
- 另外,这个框架也值得玩味:类似于先生成 initial segmentation(这里是采用极端点的方式),然后做修正(scribble-based)。