Transformer-Based Visual Segmentation: A Survey

最新推荐文章于 2025-04-26 11:07:26 发布

CV技术指南(公众号)

最新推荐文章于 2025-04-26 11:07:26 发布

阅读量393

点赞数

文章标签： transformer 人工智能深度学习

本文链接：https://blog.csdn.net/KANG157/article/details/130450626

版权

前言 Vision Transformers 为各种分割任务提供了强大、统一甚至更简单的解决方案。本调查全面概述了基于Transformers 的视觉分割，总结了最近的进展。本文首先回顾背景，包括问题定义、数据集和先前的卷积方法。接下来，总结了一个 meta 架构，它统一了所有最近基于 transformer 的方法。本文还介绍了几个密切相关的设置，包括 3D 点云分割、基础模型调整、域感知分割、高效分割和医学分割。此外，在几个成熟的数据集上编译和重新评估审查的方法。最后，确定了该领域的开放挑战，并提出了未来研究的方向。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

论文：https://arxiv.org/pdf/2304.09854.pdf

Page：https://github.com/lxtGH/Awesome-Segmenation-With-Transformer

论文出发点

与 CNN 方法相比，大多数基于 Transformers 的方法具有更简单的 pippline 但性能更强。由于基于 Transformer 的视觉模型迅速兴起，一些方法对视觉 Transformer 进行了多项调查。然而，他们中的大多数主要关注通用 Transformers 设计及其在几个特定视觉任务中的应用。还没有关于使用 ViT 进行视觉分割或基于查询的对象检测的调查。由此作者试图进行总结这些工作并继续跟踪这个不断发展的领域。

研究思路

本文系统地介绍了基于 Transformer 的视觉分割方法的最新进展。首先定义任务、数据集和基于 CNN 的方法，然后转向基于 Transformer 的方法，涵盖现有方法和未来的工作方向。其调查从方法细节的更技术角度对现有的代表作品进行了分组。特别是，首先将现有方法的核心框架总结为元体系结构。通过改变元架构的组件，将现有方法分为六类，包括Representation Learning、Decoder中的交互设计、Optimizing Object Query、Using Query For Association、Conditional Query Generation。

Background

Datasets and Metrics

具体的数据集信息如下：

通用指标

通用对于 SS 和 VSS，常用的指标是并集平均交集 (mIoU)，它计算输出图像和视频掩码与 GT 之间的像素级兴趣联合。对于 IS，指标是掩码均值平均精度（mAP），它是通过用掩码 IoU 替换框 IoU 从目标检测扩展而来的。对于 VIS，度量是 3D mAP ，它以时空方式扩展掩模 mAP 。对于 PS，指标是全景质量 (PQ)，它通过设置固定阈值 0.5 来统一事物和事物预测。对于 VPS，常用的指标是视频全景质量 (VPQ) 和分段跟踪质量 (STQ)。前者将 PQ 扩展到时间窗口计算中，而后者以逐像素的方式将分割和跟踪解耦。此外，还有其他指标，包括像素精度和时间一致性。

METHODS: A SURVEY

基于 transformer 的分割的关键技术，例如 meta 架构包含一个特征提取器、对象查询和一个转换器解码器。

同时，本文从五个方面回顾了基于变换器的分割方法：

本文将解码器设计分为两组：一组用于改进图像分割中的交叉注意设计，另一组用于视频分割中的时空交叉注意设计。前者侧重于设计更好的解码器，以改进原始 DETR 中的原始解码器。后者将基于查询的对象检测器和分割器扩展到 VOD、VIS 和 VPS 的视频域，重点是对时间一致性和关联进行建模。经典方法的总结对比如下：

结果

作者在最近基于 Transformer 的视觉分割，并列出了先前讨论的算法的性能，并选择最广泛使用的数据集作为第性能评估基准。下面是一些分割方法的对比举例：

总结

本文首次调查全面回顾了基于 Transformer 的视觉分割的最新进展，涵盖了必要的背景知识和 Transformer 之前工作的概述，并总结了 120 多种用于各种分割任务的深度学习模型。最近的作品根据分段器的元架构分为六类。此外，本文还回顾了五个密切相关的领域，并报告了几种具有代表性的分割方法在广泛使用的数据集上的结果。为了确保公平比较，还在相同设置下重新对几部代表性作品进行了基准测试，最后总结指出基于 Transformer 的视觉分割的未来研究方向。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

模型部署交流群：732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。

其它文章

上线一天，4k star | Facebook：Segment Anything

3090单卡5小时，每个人都能训练专属ChatGPT，港科大开源LMFlow

Efficient-HRNet | EfficientNet思想+HRNet技术会不会更强更快呢？

实践教程｜GPU 利用率低常见原因分析及优化

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

CNN的反击！InceptionNeXt: 当 Inception 遇上 ConvNeXt