Panoptic SegFormer 全景分割

©作者 |白墨

语义分割和实例分割是两个重要且相关的视觉问题。利用它们之间的潜在关系,全景分割将语义分割和实例分割两个任务进行统一,在同一个全景分割模型中,同时处理语义分割和实例分割。

在全景图像分割中,图像内容分为两类:things和stuff。things是可计数的实例目标,  例如,人和车,每个实例都有一个唯一的id来区分; stuff指的是无定形的区域,如天空、草地和雪,没有实例id。

这里讨论的Panoptic SegFormer是一个基于Transformer的端到端全景分割的通用框架,文章最早于2021年9月,作者包括南京大学、香港大学,NVIDIA和加利福尼亚理工学院。

该方法扩展于可变形DETR,统一了things和stuff的mask预测流程,简化了图像分割的流程。

在理解Panoptic SegFormer之前建议读者对DETR,Deformable DETR和Sparse RCNN有所了解,能够理解基于Object query的目标检测范式,有了这基础后Panoptic SegFormer全景分割就好理解了。

01 研究动机

该模型启发于目前流行的端到端的目标检测框架DETR, DETR将目标检测任务建模为基于可学习的查询词汇的字典查找问题,使用具有编码器和解码器的Transformer在无需额外后处理操作,在框架中移除人工设计如NMS和Anchor等部件,极大地简化了传统的目标检测框架。

改进版的可变形DETR,通过可变形的注意力层进一步降低了DETR中的内存和计算成本。

然而使用DETR进行目标分割时,其缺陷包括:DETR在训练阶段需要漫长时间才能收敛;DETR自注意力层的计算复杂度是输入序列长度的平方阶,使用DETR的特征长度受限,而使用fpn方式生成Mask,其边缘区域的精确性较低;DETR采用包围盒相同的方式处理things和stuff,得到的stuff结果不是最优的结果。

由此在DETR的基础上,设计一种简洁有效的端到端全景分割框架。具体来说,作者主要考虑三个关键点:

● 1.采用Query集来统一表示things和stuff,其中stuff类被认为是具有单实例id的特殊的things类型;

● 2.提出利用things的位置信息来提高分割质量的位置解码器;

● 3.提出新的things和stuff分割结果的后处理策略。

02 模型结构

如下图所示,Panoptic SegFormer模型结构包括Transformer编码器,目标的位

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CV案例精选

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值