全景分割2篇文章贡献总结
本文阅读了何恺明关于全景分割《Panoptic Segmentation》以及全景分割论文《Panoptic-DeepLab: A Simple Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation》,总结了两篇文章的突出贡献。
文章目录
《Panoptic Segmentation》
来自何恺明大神团队的文章,重新定义了全景分割,并且提出了新的评价指标。
度量准则
论文认为目前全景分割任务在实例分割和语义分割之间分别进行而非统一分割的一个很重要的原因是缺少合适的度量矩阵。因此,文中提出了一种适用于二者的Panoptic Quality(PQ) metric,具体公式为:
其可以分解为分割质量(segmentation quality,SQ)和识别质量(recognition quality,RQ)的乘积,便于进一步评估分割和识别环节的表现。
实例匹配原则
预测段与标签对应部分IoU>0.5,认为两者相匹配。此外全景分割具有非重叠属性,即可得到唯一的匹配结果。
在三个数据集上研究人和机器的表现,最后希望在两个领域推动全景分割算法的进展
- 深度集成的端到端模型同时解决了全景分割的双重性质和事物本质,许多实例分割方法被设计成产生非重叠的实例预测,并且可以作为这种系统的基础。
- 由于全景分割不能有重叠的片段,一些更高层次的“推理”形式可能是有益的,例如,基于扩展可学习的NMS。
《Panoptic-DeepLab: A Simple Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation》
bottom-up全景分割
提出一种高效的bottom-up的全景分割方法,先生成语义分割信息,然后根据语义分割信息以及其他信息将语义分割的同类、同实例的像素点归并到一起。
提出统一的Backbone
提出一个统一的backbone,分出两个结构非常相似的头部,实现两种任务:一个是one-stage的实例分割,一个是语义分割,最后通过后处理将二者结果结合。
- 实例分割部分:学习预测实例中心以及每个像素到其对应中心的偏移量,从而通过将像素分配给最接近的预测中心来进行极其简单的分组操作。
- 语义分割部分:可以用任意的框架代替,具有很强的灵活性。
后处理部分
- 将实例的质心和偏移量组合起来,形成若干实例。
- 将语义分割的结果和实例分割结果高效地归并在一起。
Panoptic-DeepLab网络框架
- Backbone:基于ImageNet Pretrain,在最后一层加上空洞卷积
- Decoder: 基于DeepLab V3修改了2部分,包括引入了1/8尺度的skip-connection,以及每次上采样之后加上了5x5的卷积。至此,语义分割和实例分割的分支结构都完全相同。这么做的一大优势在于各任务的梯度能够更均衡,这样的多任务网络能够更好地收敛
- 语义分割的头部是一个很常见的FCN。