大连理工卢湖川团队新作 | Spider: 开启图像统一分割新范式

标题:Spider: A Unified Framework for Context-dependent Concept Segmentation
论文:https://arxiv.org/pdf/2405.01002
源码:https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg
项目: https://github.com/Xiaoqi-Zhao-DLUT/Awesome-Unified-Context-dependent-Concept-Segmentation/

研究动机

图像分割关注的感兴趣目标种类繁多,如室内(人、桌椅);室外(车辆、道路);视觉注意力启发的显著性目标、伪装目标分割;医学领域的病灶分割等。在过去很长一段时间内,图像分割领域其实是缺乏对这些概念的一个总结和区分的。

图1. 图像分割中不同的感兴趣目标

然而,在认知科学领域[1],对于目标的概念一直有着明确的定义:上下文独立(CI)和上下文依赖(CD)概念

CI概念无论处于何种场景,其对象定义都是明确的。可以看到,仅依靠前景,人们就可以捕获视觉目标是何种概念:熊,天鹅,船,车。其也是传统的语义分割任务所研究的概念类别。

而对于CD概念而言,仅依靠前景,无法明确当前表达的是何种概念,必须依靠周围环境的背景信息,才有可能明确当前的概念定义,例如显著性目标、伪装目标、阴影、医学病灶等。(为什么说有可能呢?因为CD概念的单张图像可能存在歧义,需要多组图像才能统一为一种概念指示)

因此,上下文信息 (背景+前景)对于CI概念的理解是辅助层面,而对CD概念是决定性层面。

图2 上下文独立(CI)与上下文依赖(CD)概念的可视化比较

当前CI分割领域,由于数据集统一,且包含多类别标注,能够容易地完成训练并方便地进行性能比较,研究趋势比较集中。

从早期 PSPNet, Deeplabv3+ 研究的多尺度技术到 DANet、CCNet 的 non-local attention 技术,再到 transformer 时代的 MaskFormer, SegFormer, Mask2Former, TopFormer 等工作。

图3  CI概念分割(广义语义分割)的研究现状

对于CD领域,其分支众多,作者发表在IJCV 2024的GateNetv2工作中,Survey 200+ paper发现:

  1. 单分支的研究太过于垂直,忽略了实验和技术上的比较,因而重复性设计过多。
  2. 共同的挑战几乎相同,包括多尺度信息、边缘信息、抑制背景、注意力设计、损失函数设计、渐进式与并行式结构等。

图4  CD概念分割分支的方法汇总

由此可见,CD概念分割领域,由于数据集独立、跨域(自然、医学、工业)、跨模态(Xray、 CT、超声)、单类标注感兴趣概念等局限性,每个研究分支都十分独立,缺乏横向的比较。

最近,逐渐出现一些统一工作,例如VSCode,EVP,医学分割领域的UniverSeg。直到GateNetV2才首次的评测了大规模、多样性的CD概念分割数据集。

此外,随着ViT,ConvNext等强表征能力的backbone出现,适合处理多模态数据,大一统结构成为了研究趋势,各领域统一模型层出不穷,CD概念分割也到了统一的时间结点。

图5  CD概念分割的研究现状

研究挑战

作者被ICML 2024收录的Spider模型,首次提出对于CD概念的统一(训练、结构、参数)分割架构。文章分析了面向多CD概念统一理解时存在的多种挑战问题。

  1. 单个目标可能同时存在多个CD概念的叠加,而CI概念是不会存在目标在空间位置上的叠加。这种特性,导致完成CD概念的参数统一非常具有挑战性,需要模型具有非常强大的上下文理解能力以区分不同的叠加概念。

图6  Spider模型统一的8种CD概念分割任务

  1. 如何使用跨域、跨数据来完成多概念训练。当前CD领域没有单张图像对应多概念的标注可供容易地完成多概念的训练。

图7  CI概念分割数据集与CD概念分割数据集的差异

  1. 许多技术报告指出,当前,“分割万物”、“分割一切”的通才模型,例如SAM, SegGPT, UniverSeg等爆火的分割模型,在CD概念分割任务上仍然表现较差[2,3,4]。

解决方案

  1. 在模型设计上本文遵循参数统一&知识解耦。模型前99%参数都是用来提取通用表征,以最大的获得跨域数据的协同能力。而在最后一层,作者将概念特定的Prompt嵌入,用于生成各类概念的滤波器,以对前面通用的表征完成特定任务的知识疏通。

图8  Spider模型Pipeline

  1. 模仿人类确定概念的过程一样,采用组提示的思想生成各个概念的Prompt。具体的,同时依靠图像组,前景组和背景组提示。之前的统一模型由于面向CI概念设计,因而通常采用单一的前景提示信息就足够了,而对于CD概念来说组、前景、背景缺一不可。

图9  视觉图像组提示信息

  1. 信息交互。Spider模型将图像组-前景组-背景组,设计为一种高层次概念查询-匹配机制,通过学习这种模式,将知识凝练为更高层次的概念滤波器。而在此之前,统一模型的融合几乎都采用Pix-level fusion形式,将prompt信息在空间位置点对点的融合,缺乏高层概念的捕获,也是很多方法在CD概念理解表现不佳的重要原因。

图10  视觉提示与当前图像输入之间的两种特征交互类型

图11  概念滤波器的生成过程

  1. 如果想获得对所有任务一致优异的性能而不偏向某一任务,训练的平衡策略也是十分必要的。作者设计了Balance FP- Unifgy BP的多任务平衡训练策略,在8个任务训练过程中,依靠batchnorm的对于数据均衡的特性,始终保持对每一任务采用的batchsize等大,在反向传播时需要多任务的梯度逐次累加,整体一次反向传播。

图12  多任务训练策略

性能表现

Spider模型实现了十分优异的性能。相比于每个分支的专家模型,以及统一或者通才模型,在所有指标上都遥遥领先。

最为重要的,Spider首次在CD概念理解领域,展现了一对多的预测能力。同时也有很多有趣的发现:

  1. 伪装和显著性的预测结果可能对应于同一个目标。这也符合由于 Zoom in/out 对视觉系统注意力感知的影响。当前也有很多工作在研究saliency, 伪装排序的问题。
  2. 肠息肉具有伪装属性,伪装分割任务有益于息肉的识别。
  3. 自然图像对医学图像的辅助,促进半监督学习(自然图像的标注容易获取且无需专业知识)。
  4. 阴影检测和去除有助于提升医疗设备成像。

图13  图像一对多概念预测效果

潜能1 零样本学习/持续学习/增量零样本学习

潜能2 In-context Learning

潜能3 高容忍度提示标注

Spider模型总结

References:
[1] Context-independent and Context-dependent Information in Concepts
[2] Can sam segment anything? when sam meets camouflaged object detection
[3] SAM Fails to Segment Anything?–SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, and More
[4] SegGPT Meets Co-Saliency Scene

写在最后

如果你对本文有任何的观点或疑问,欢迎评论区下方留言讨论。同时也欢迎对前沿AI技术感兴趣的同学扫添加微信好友: cv_huber,备注“交流学习”即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值