CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

论文:https://arxiv.org/abs/2303.17225
代码:https://freeseg.github.io/

摘要

最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割,这将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了FreeSeg,这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。此外,自适应提示学习有助于统一模型捕获任务感知和类别敏感的概念,提高模型在多任务和不同场景下的稳健性。大量的实验结果表明,FreeSeg在三段的性能和泛化方面建立了新的最先进的结果。
然而,当前的工作在推广到一般分割场景时存在两个明显的缺点: i)任务不敏感:它们不能捕捉任务感知特征并有效地推广到不同的分割任务;ii)资源不友好:切换任务时需要从头开始训练模型,不同的任务需要部署多个定制模型。
为了解决上述问题,如图1所示,我们提出了FreeSeg,这是一个实现统一、通用和开放词汇图像分割的新颖框架。在FreeSeg中,我们的目标主要有三个方面:i)统一:FreeSeg设计一个统一的(多合一)网络,采用相同的架构和推理参数来处理多个分割任务;ii)通用:FreeSeg适应各种任务,即语义、实例和全景分割;iii)开放词汇:FreeSeg能够推广到任意分割类别。

相关工作

开放语义分割

深度学习[18,19,29,34-36,39]和图像分割最近取得了巨大的成功[3,4,6,24,25,30,40]。开放词汇分割旨在分割训练过程中无法访问的目标类别。现有方法可以分为两个方面:将视觉特征映射到语义空间[1,11,37]和与预训练模型[7,17,38]的跨模态对齐。对于映射方面,SPNet[37]将视觉特征编码到语义嵌入空间,然后将每个像素特征投影到通过固定的语义词编码矩阵预测概率结果。ZS3Net[1]在semantic嵌入空间中生成不可见类的像素级特征,并采用生成的特征来监督视觉分割模型。STRICT[23]将一种自我训练技术引入SPNet以提高不可见类的分割性能。跨模态对齐利用预训练的跨模态模型(如CLIP[26])的强大zero-shot功能来执行开放词汇表分割任务。LSeg[17]学习CNN模型来计算每像素图像特征,以匹配预训练文本模型嵌入的文本嵌入。ZegForm[7]和ZSSeg[38]利用视觉模型生成与类别无关的掩码,并使用预训练的文本编码器来检索看不见的类别掩码。XPM[13]利用区域级特征来匹配基于CLIP的文本嵌入,以完成开放词汇表实例分割。MaskCLIP[8]尝试在CLIP视觉编码器中建立与类别无关的掩码之间的关系,以完成开放词汇表全景分割。

通用分割模型

通用分割框架的目标是在任意分割任务中采用相同的架构,因此当前的通用分割方法[5,6,41]定期将多个任务(语义、实例、全景)约束到一个统一的训练范式中。Mask-Form[6]将分割任务统一为掩码的分类问题,即输出二进制掩码和相应的类别,从而在语义和全景分割任务中实现最先进的性能。K-Net[41]通过可学习内核将实例分割标准化为语义分割,以同时完成语义、实例和全景分割任务。Mask2Form[5]将掩码注意力机制应用于MaskForm,以提高统一模型的泛化和每个任务的性能。然而,这些统一的框架仍然需要为每个任务训练一个单独的模型以实现最佳性能。我们提出的FreeSeg进行一次性训练以优化多合一模型以完成多个分割任务。

方法

在这里插入图片描述

FreeSeg Framework

获取一个all-in-one的模型来获取语义、实例和全景分割的所有类的结果,构建FreeSeg,两阶段framework。
第一阶段提取universe mask proposals,第二阶段利用CLIP在这些masks上执行zero-shot分类。

训练

第一阶段:
训练数据,图片 I I I,可见类集合 C s e e n C_{seen} Cseen,任务名称 T t r a i n T_{train} Ttrain,多任务标签 M g t M_{gt} Mgt
图片被编码为 F v ∈ R N × D F_v \in R^{N \times D} FvRN×D,类别无关的masks为 M ∈ R N × H × W M \in R^{N \times H \times W} MRN×H×W,其中 N N N D D D为queries的数量和特征维度。注意 M g t ∈ ( M s e m g t , M i n s g t , M p a n g t ) M^{gt} \in ( M^{gt}_{sem}, M^{gt}_{ins}, M^{gt}_{pan}) Mgt(Msemgt,Minsgt,Mpangt)
mask的损失为 L m a s k = L F ( M , M g t ) + L D ( M , M g t ) \mathcal{L}_{mask}=\mathcal{L}_{F}(M, M^{gt})+\mathcal{L}_{D}(M, M^{gt}) Lmask=LF(M,Mgt)+LD(M,Mgt),
其中, L F \mathcal{L}_{F} LF L D \mathcal{L}_{D} LD分别为focal loss 和 dice loss;
由于训练过程中任务之间的梯度冲突,同时优化所有任务通常很困难,因此每次迭代只选择一个任务标签进行监督,该标签是从 ( M s e m g t , M i n s g t , M p a n g t ) (M^{gt}_{sem}, M^{gt}_{ins}, M^{gt}_{pan}) (Msemgt,Minsgt,Mpangt)选择。
F t ∈ R C × D F_t \in R^{C \times D} FtRC×D是text embedding, 其中C代表类别的数量。
在这里插入图片描述

测试

在测试阶段,经过训练的掩码提案提取器生成一组带有文本指导的二进制掩码(binary masks),并利用预先训练的 CLIP 视觉编码器来获取掩码级别的视觉概念。FreeSeg 计算掩码表示和紧凑文本嵌入之间的相似度,并根据自适应任务提示输出面向任务的分割结果。借助自适应提示学习,FreeSeg 可以处理任意任务和类别。测试类别集 C t e s t C_{test} Ctest 由可见类 C s e e n C_{seen} Cseen和其他未可见类 C u n s e e n C_{unseen} Cunseen组成。

Adaptive Prompt Learning ----------theres

为了将任意任务和类别编码为紧凑的文本抽象,我们提出了自适应提示学习包括 自适应的任务提示 P t P_t Pt和类别提示 P c P_c Pc。固定提示将所有类别和任务名称放入相同的模板中,这不是任务类别对上下文的最佳表示形式。而自适应提示学习将任务和类别文本转换为一组可学习的向量,这些向量连接为文本嵌入以促进模型训练。
自适应任务提示:
具体来说,自适应任务提示 P t P_t Pt是根据模板 {◦ ◦ …t …◦ ◦ } ,其中 ◦ 表示可学习的向量。t 是任务集 T 中的相应任务名称,其中包含“语义分割”、“实例分割”或“全景分割”。然后,任务提示由预训练的 CLIP 文本编码器 Ψ \Psi Ψ嵌入:
E t = Ψ ( P t ( t ) ) , t ∈ T E_t=\Psi(P_t(t)), t \in T Et=Ψ(Pt(t)),tT

自适应类别提示:
根据模版 {◦ ◦ …t …◦ ◦ } ,其中c代表填充的类别名。
E c = Ψ ( P c ( c ) ) , c ∈ C s e e n E_c=\Psi(P_c(c)), c \in C_{seen} Ec=Ψ(Pc(c)),cCseen

之后拼接得到多通道embeddings
F t = C a t ( E c , E t ) F_t=Cat(E_c, E_t) Ft=Cat(Ec,Et)
值得注意的是,输入类别可以是任意的,因此 Ft 可以无缝地适应看不见的类别进行开放词汇细分。

Semantic Context Interaction

普通的视觉概念忽略了任务和类别信息,这些信息可以为综合推理提供更可靠的线索。
针对这一问题,我们创造性地引入了语义上下文交互模块,通过将自适应文本嵌入有效地聚合到视觉概念中,提高跨模态特征的匹配和对齐能力。
在这里插入图片描述

测试时间提示调整

为了改善不可见类别的跨模态对齐,我们利用测试时间自适应 (TTA) 算法在测试期间优化自适应类提示,称为测试时间提示调整。在测试阶段,我们过滤掉看不见的类的余弦相似度分数 S u S_u Su,并计算相应的熵:
在这里插入图片描述
其中, N u N_u Nu是不可见类的数量。
选取高可信度的queries, S u ∗ = S u [ e n t r o < t ] S_u^*=S_u[entro< t] Su=Su[entro<t],t为高可信度的阈值,因为值过低说明预测可信度过低。
用以下loss优化自适应类提示的参数:
在这里插入图片描述

结果 — 待补充

数据集:COCO,ADE20K, PASCAL VOC2012;
8张A100;

可以发现,可见类和不可见类上的识别率都有所提升;
在这里插入图片描述
在这里插入图片描述

总结

在本文中,我们提供了一个通用的框架,即FreeSeg来完成统一的开放词汇分割。
据我们所知,我们首次尝试使用具有相同架构和推理参数的单一模型来完成开放词汇语义、实例和全景分割。与单任务训练相比,FreeSeg成功地将训练成本降低了约三分之二,并取得了更好的泛化性能。在真实场景部署中只需要一个统一的模型,从而降低了推理过程的计算能力、内存成本和带宽。
本文工作可以提供启发性的见解,并为开放词汇分割提出一条新的前进道路。

扩展 – 待补充

全景分类中的任务感知指标PQ,RQ,SQ

在这里插入图片描述
全景分割PQ (panoptic segmentation) 、分割质量SQ ( segmentation quality)、识别质量RQ (recognition quality)
RQ是检测中应用广泛的 F1 score,用来计算全景分割中每个实例物体识别的准确性;
SQ 表示匹配后的预测 segment与标注 segment 的 mIOU,如下图所示,只有当预测 segment 与标注 segment 的 IOU 严格大于 0.5 时,认为两个 segment 是匹配的。

定理1。给定一个预测的和基本事实的全景图,对图像进行分割,每个地面实况片段都可以最多有一个具有IoU严格大于0.5的对应预测片段,反之亦然。

如下图所示,地面实况和预测全景的玩具插图(toy illustration)图像的分割。成对的相同颜色的线段具有大于0.5的IoU并且因此是匹配的。我们展示person类的如何被划分为真阳性TP、假阴性FN和假阳性FP。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 15
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值