大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

最新推荐文章于 2025-01-04 17:35:24 发布

CVHub

最新推荐文章于 2025-01-04 17:35:24 发布

阅读量1.1k

点赞数 7

分类专栏：分类/识别/检测/分割文章标签：人工智能

本文链接：https://blog.csdn.net/CVHub/article/details/139845055

版权

分类/识别/检测/分割专栏收录该内容

74 篇文章

订阅专栏

标题：Spider: A Unified Framework for Context-dependent Concept Segmentation
论文：https://arxiv.org/pdf/2405.01002
源码：https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg
项目: https://github.com/Xiaoqi-Zhao-DLUT/Awesome-Unified-Context-dependent-Concept-Segmentation/

研究动机

图像分割关注的感兴趣目标种类繁多，如室内（人、桌椅）；室外（车辆、道路）；视觉注意力启发的显著性目标、伪装目标分割；医学领域的病灶分割等。在过去很长一段时间内，图像分割领域其实是缺乏对这些概念的一个总结和区分的。

图1. 图像分割中不同的感兴趣目标

然而，在认知科学领域[1]，对于目标的概念一直有着明确的定义：上下文独立（CI）和上下文依赖（CD）概念。

CI概念无论处于何种场景，其对象定义都是明确的。可以看到，仅依靠前景，人们就可以捕获视觉目标是何种概念：熊，天鹅，船，车。其也是传统的语义分割任务所研究的概念类别。

而对于CD概念而言，仅依靠前景，无法明确当前表达的是何种概念，必须依靠周围环境的背景信息，才有可能明确当前的概念定义，例如显著性目标、伪装目标、阴影、医学病灶等。（为什么说有可能呢？因为CD概念的单张图像可能存在歧义，需要多组图像才能统一为一种概念指示）

因此，上下文信息 （背景+前景）对于CI概念的理解是辅助层面，而对CD概念是决定性层面。

图2 上下文独立（CI）与上下文依赖（CD）概念的可视化比较

当前CI分割领域，由于数据集统一，且包含多类别标注，能够容易地完成训练并方便地进行性能比较，研究趋势比较集中。

从早期 PSPNet, Deeplabv3+ 研究的多尺度技术到 DANet、CCNet 的 non-local attention 技术，再到 transformer 时代的 MaskFormer, SegFormer, Mask2Former, TopFormer 等工作。

图3 CI概念分割（广义语义分割）的研究现状

对于CD领域，其分支众多，作者发表在IJCV 2024的GateNetv2工作中，Survey 200+ paper发现:

单分支的研究太过于垂直，忽略了实验和技术上的比较，因而重复性设计过多。
共同的挑战几乎相同，包括多尺度信息、边缘信息、抑制背景、注意力设计、损失函数设计、渐进式与并行式结构等。

图4 CD概念分割分支的方法汇总

由此可见，CD概念分割领域，由于数据集独立、跨域（自然、医学、工业）、跨模态（Xray、 CT、超声）、单类标注感兴趣概念等局限性，每个研究分支都十分独立，缺乏横向的比较。

最近，逐渐出现一些统一工作，例如VSCode，EVP，医学分割领域的UniverSeg。直到GateNetV2才首次的评测了大规模、多样性的CD概念分割数据集。

此外，随着ViT，ConvNext等强表征能力的backbone出现，适合处理多模态数据，大一统结构成为了研究趋势，各领域统一模型层出不穷，CD概念分割也到了统一的时间结点。

图5 CD概念分割的研究现状

研究挑战

作者被ICML 2024收录的Spider模型，首次提出对于CD概念的统一（训练、结构、参数）分割架构。文章分析了面向多CD概念统一理解时存在的多种挑战问题。

单个目标可能同时存在多个CD概念的叠加，而CI概念是不会存在目标在空间位置上的叠加。这种特性，导致完成CD概念的参数统一非常具有挑战性，需要模型具有非常强大的上下文理解能力以区分不同的叠加概念。

图6 Spider模型统一的8种CD概念分割任务

如何使用跨域、跨数据来完成多概念训练。当前CD领域没有单张图像对应多概念的标注可供容易地完成多概念的训练。

图7 CI概念分割数据集与CD概念分割数据集的差异

许多技术报告指出，当前，“分割万物”、“分割一切”的通才模型，例如SAM, SegGPT, UniverSeg等爆火的分割模型，在CD概念分割任务上仍然表现较差[2,3,4]。

解决方案

在模型设计上本文遵循参数统一&知识解耦。模型前99%参数都是用来提取通用表征，以最大的获得跨域数据的协同能力。而在最后一层，作者将概念特定的Prompt嵌入,用于生成各类概念的滤波器，以对前面通用的表征完成特定任务的知识疏通。

图8 Spider模型Pipeline

模仿人类确定概念的过程一样，采用组提示的思想生成各个概念的Prompt。具体的，同时依靠图像组，前景组和背景组提示。之前的统一模型由于面向CI概念设计，因而通常采用单一的前景提示信息就足够了，而对于CD概念来说组、前景、背景缺一不可。

图9 视觉图像组提示信息

信息交互。Spider模型将图像组-前景组-背景组，设计为一种高层次概念查询-匹配机制，通过学习这种模式，将知识凝练为更高层次的概念滤波器。而在此之前，统一模型的融合几乎都采用Pix-level fusion形式，将prompt信息在空间位置点对点的融合，缺乏高层概念的捕获，也是很多方法在CD概念理解表现不佳的重要原因。

图10 视觉提示与当前图像输入之间的两种特征交互类型

图11 概念滤波器的生成过程

如果想获得对所有任务一致优异的性能而不偏向某一任务，训练的平衡策略也是十分必要的。作者设计了Balance FP- Unifgy BP的多任务平衡训练策略，在8个任务训练过程中，依靠batchnorm的对于数据均衡的特性，始终保持对每一任务采用的batchsize等大，在反向传播时需要多任务的梯度逐次累加，整体一次反向传播。

图12 多任务训练策略

性能表现

Spider模型实现了十分优异的性能。相比于每个分支的专家模型，以及统一或者通才模型，在所有指标上都遥遥领先。

最为重要的，Spider首次在CD概念理解领域，展现了一对多的预测能力。同时也有很多有趣的发现：

伪装和显著性的预测结果可能对应于同一个目标。这也符合由于 Zoom in/out 对视觉系统注意力感知的影响。当前也有很多工作在研究saliency, 伪装排序的问题。
肠息肉具有伪装属性，伪装分割任务有益于息肉的识别。
自然图像对医学图像的辅助，促进半监督学习（自然图像的标注容易获取且无需专业知识）。
阴影检测和去除有助于提升医疗设备成像。

图13 图像一对多概念预测效果

潜能1 零样本学习/持续学习/增量零样本学习

潜能2 In-context Learning

潜能3 高容忍度提示标注

Spider模型总结

References:
[1] Context-independent and Context-dependent Information in Concepts
[2] Can sam segment anything? when sam meets camouflaged object detection
[3] SAM Fails to Segment Anything?–SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, and More
[4] SegGPT Meets Co-Saliency Scene