点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
本文转载自:Smarter
前一段时间的MaskFormer提出可以将分割任务看成是mask预测任务(详细可以看之前的文章MaskFormer:语义分割是像素分类问题吗?),Panoptic SegFormer思路和MaskFormer类似。
Panoptic SegFormer
论文:https://arxiv.org/abs/2109.03814
相比于MaskFormer主要有3点不同:
1.backbone部分采用PVTv2,并且同时使用backbone的多尺度feature
2.引入了location decoder,通过辅助的位置预测loss加快收敛
3.提出mask-wise merge的策略来合并things和stuff
01
Overall architecture
Panoptic SegFormer整体框架如图所示。先通过backbone抽取多尺度feature,然后送入transformer encoder编码,最后通过location decoder和mask decoder解码。训练阶段,先进行双边匹配得到每个query对应的label,location decoder输出预测位置和尺寸,mask decoder输出预测mask和类别;推理阶段,用mask-wise merge策略对预测结果去重。
下面详细讲一下location decoder、mask decoder和mask-wise merge部分。
Location Decoder
给定N个初始化queries,训练阶段,在location decoder后面添加一个辅助MLP来预测位置和尺寸,location decoder的输出称为location-aware queries;推理阶段,去除辅助MLP。这一个辅助loss,可以帮助网络快速收敛,每个query关注区域指向性更明确。
Mask Decoder
mask decoder将location decoder的输出location-wise queries当作query,和MaskFormer预测mask和类别不同的是,Panoptic SegFormer预测mask需要先将attention map拆分成A3,A4,A5,然后都上采样到H/8xW/8的分辨率,concat在一起得到A_fuse,最后通过1x1卷积得到mask预测结果。
Mask-Wise Merge
之前的分割去重,一般都是使用pixel-wise argmax策略,也就是重叠部分保留预测分数最大的类别。本文提出的mask-wise merge策略,对于重叠部分进行舍弃,上图是伪代码。
02
实验结果
从上表可以看出,Panoptic SegFormer比之前的算法收敛速度更快,效果更好。
可视化对比,Panoptic SegFormer预测结果更加sharp,并且由于mask-wise merge策略,实例之间的边缘更加清晰。
03
总结
之前的全景分割算法如Panoptic FCN和Panoptic-DeepLab都引入了位置辅助预测,在MaskFormer中引入位置预测是很自然的,这有利于query快速关注到合适的位置,帮助模型更好的收敛。
Panoptic SegFormer用了更好的backbone(并且增加了多尺度特征),更好的位置先验,更好的后处理,Panoptic SegFormer做的相当完整了,全景分割想再进一步提升感觉非常困难了。
Panoptic SegFormer论文下载
后台回复:PSegFormer,即可下载上述论文PDF
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
重磅!图像分割交流群成立
扫码添加CVer助手,可申请加入CVer-图像分割微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看