©作者 |白墨
语义分割和实例分割是两个重要且相关的视觉问题。利用它们之间的潜在关系,全景分割将语义分割和实例分割两个任务进行统一,在同一个全景分割模型中,同时处理语义分割和实例分割。
在全景图像分割中,图像内容分为两类:things和stuff。things是可计数的实例目标, 例如,人和车,每个实例都有一个唯一的id来区分; stuff指的是无定形的区域,如天空、草地和雪,没有实例id。
这里讨论的Panoptic SegFormer是一个基于Transformer的端到端全景分割的通用框架,文章最早于2021年9月,作者包括南京大学、香港大学,NVIDIA和加利福尼亚理工学院。
该方法扩展于可变形DETR,统一了things和stuff的mask预测流程,简化了图像分割的流程。
在理解Panoptic SegFormer之前建议读者对DETR,Deformable DETR和Sparse RCNN有所了解,能够理解基于Object query的目标检测范式,有了这基础后Panoptic SegFormer全景分割就好理解了。
01 研究动机
该模型启发于目前流行的端到端的目标检测框架DETR, DETR将目标检测任务建模为基于可学习的查询词汇的字典查找问题,使用具有编码器和解码器的Transformer在无需额外后处理操作,在框架中移除人工设计如NMS和Anchor等部件,极大地简化了传统的目标检测框架。
改进版的可变形DETR,通过可变形的注意力层进一步降低了DETR中的内存和计算成本。
然而使用DETR进行目标分割时,其缺陷包括:DETR在训练阶段需要漫长时间才能收敛;DETR自注意力层的计算复杂度是输入序列长度的平方阶,使用DETR的特征长度受限,而使用fpn方式生成Mask,其边缘区域的精确性较低;DETR采用包围盒相同的方式处理things和stuff,得到的stuff结果不是最优的结果。
由此在DETR的基础上,设计一种简洁有效的端到端全景分割框架。具体来说,作者主要考虑三个关键点:
● 1.采用Query集来统一表示things和stuff,其中stuff类被认为是具有单实例id的特殊的things类型;
● 2.提出利用things的位置信息来提高分割质量的位置解码器;
● 3.提出新的things和stuff分割结果的后处理策略。
02 模型结构
如下图所示,Panoptic SegFormer模型结构包括Transformer编码器,目标的位