全景分割新标杆！南大&港大提出：Panoptic SegFormer

最新推荐文章于 2024-03-24 09:30:46 发布

Amusi（CVer）

最新推荐文章于 2024-03-24 09:30:46 发布

阅读量520

点赞数

文章标签：算法计算机视觉人工智能深度学习卷积神经网络

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

本文转载自：Smarter

前一段时间的MaskFormer提出可以将分割任务看成是mask预测任务(详细可以看之前的文章MaskFormer：语义分割是像素分类问题吗？)，Panoptic SegFormer思路和MaskFormer类似。

Panoptic SegFormer

论文：https://arxiv.org/abs/2109.03814

相比于MaskFormer主要有3点不同：

1.backbone部分采用PVTv2，并且同时使用backbone的多尺度feature

2.引入了location decoder，通过辅助的位置预测loss加快收敛

3.提出mask-wise merge的策略来合并things和stuff

Overall architecture

Panoptic SegFormer整体框架如图所示。先通过backbone抽取多尺度feature，然后送入transformer encoder编码，最后通过location decoder和mask decoder解码。训练阶段，先进行双边匹配得到每个query对应的label，location decoder输出预测位置和尺寸，mask decoder输出预测mask和类别；推理阶段，用mask-wise merge策略对预测结果去重。

下面详细讲一下location decoder、mask decoder和mask-wise merge部分。

Location Decoder

给定N个初始化queries，训练阶段，在location decoder后面添加一个辅助MLP来预测位置和尺寸，location decoder的输出称为location-aware queries；推理阶段，去除辅助MLP。这一个辅助loss，可以帮助网络快速收敛，每个query关注区域指向性更明确。

Mask Decoder

mask decoder将location decoder的输出location-wise queries当作query，和MaskFormer预测mask和类别不同的是，Panoptic SegFormer预测mask需要先将attention map拆分成A3，A4，A5，然后都上采样到H/8xW/8的分辨率，concat在一起得到A_fuse，最后通过1x1卷积得到mask预测结果。

Mask-Wise Merge

之前的分割去重，一般都是使用pixel-wise argmax策略，也就是重叠部分保留预测分数最大的类别。本文提出的mask-wise merge策略，对于重叠部分进行舍弃，上图是伪代码。

实验结果

从上表可以看出，Panoptic SegFormer比之前的算法收敛速度更快，效果更好。

可视化对比，Panoptic SegFormer预测结果更加sharp，并且由于mask-wise merge策略，实例之间的边缘更加清晰。

总结

之前的全景分割算法如Panoptic FCN和Panoptic-DeepLab都引入了位置辅助预测，在MaskFormer中引入位置预测是很自然的，这有利于query快速关注到合适的位置，帮助模型更好的收敛。

Panoptic SegFormer用了更好的backbone(并且增加了多尺度特征)，更好的位置先验，更好的后处理，Panoptic SegFormer做的相当完整了，全景分割想再进一步提升感觉非常困难了。

Panoptic SegFormer论文下载

后台回复：PSegFormer，即可下载上述论文PDF

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！图像分割交流群成立

扫码添加CVer助手，可申请加入CVer-图像分割微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
全景分割新标杆！南大&港大提出：Panoptic SegFormer

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达本文转载自：Smarter前一段时间的MaskFormer提出可以将分割任务看成是mask预测任务(详细可以看之前的文章...
复制链接

扫一扫