CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

最新推荐文章于 2024-11-14 17:10:58 发布

万年枝

最新推荐文章于 2024-11-14 17:10:58 发布

阅读量1k

点赞数 15

分类专栏：论文合集文章标签：人工智能

本文链接：https://blog.csdn.net/asuiyu/article/details/135775020

版权

论文合集专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

摘要
相关工作
- 开放语义分割
- 通用分割模型
方法
总结
扩展 -- 待补充
- 全景分类中的任务感知指标PQ，RQ，SQ

论文:https://arxiv.org/abs/2303.17225
代码:https://freeseg.github.io/

摘要

最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割，这将分割系统推广到更通用的应用场景。然而，现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化，从而阻碍了分割模型的统一性。因此，在本文中，我们提出了FreeSeg，这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络，并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。此外，自适应提示学习有助于统一模型捕获任务感知和类别敏感的概念，提高模型在多任务和不同场景下的稳健性。大量的实验结果表明，FreeSeg在三段的性能和泛化方面建立了新的最先进的结果。
然而，当前的工作在推广到一般分割场景时存在两个明显的缺点： i）任务不敏感：它们不能捕捉任务感知特征并有效地推广到不同的分割任务；ii）资源不友好：切换任务时需要从头开始训练模型，不同的任务需要部署多个定制模型。
为了解决上述问题，如图1所示，我们提出了FreeSeg，这是一个实现统一、通用和开放词汇图像分割的新颖框架。在FreeSeg中，我们的目标主要有三个方面：i）统一：FreeSeg设计一个统一的（多合一）网络，采用相同的架构和推理参数来处理多个分割任务；ii）通用：FreeSeg适应各种任务，即语义、实例和全景分割；iii）开放词汇：FreeSeg能够推广到任意分割类别。

相关工作

开放语义分割

深度学习[18,19,29,34-36,39]和图像分割最近取得了巨大的成功[3,4,6,24,25,30,40]。开放词汇分割旨在分割训练过程中无法访问的目标类别。现有方法可以分为两个方面：将视觉特征映射到语义空间[1,11,37]和与预训练模型[7,17,38]的跨模态对齐。对于映射方面，SPNet[37]将视觉特征编码到语义嵌入空间，然后将每个像素特征投影到通过固定的语义词编码矩阵预测概率结果。ZS3Net[1]在semantic嵌入空间中生成不可见类的像素级特征，并采用生成的特征来监督视觉分割模型。STRICT[23]将一种自我训练技术引入SPNet以提高不可见类的分割性能。跨模态对齐利用预训练的跨模态模型（如CLIP[26]）的强大zero-shot功能来执行开放词汇表分割任务。LSeg[17]学习CNN模型来计算每像素图像特征，以匹配预训练文本模型嵌入的文本嵌入。ZegForm[7]和ZSSeg[38]利用视觉模型生成与类别无关的掩码，并使用预训练的文本编码器来检索看不见的类别掩码。XPM[13]利用区域级特征来匹配基于CLIP的文本嵌入，以完成开放词汇表实例分割。MaskCLIP[8]尝试在CLIP视觉编码器中建立与类别无关的掩码之间的关系，以完成开放词汇表全景分割。

通用分割模型

通用分割框架的目标是在任意分割任务中采用相同的架构，因此当前的通用分割方法[5,6,41]定期将多个任务（语义、实例、全景）约束到一个统一的训练范式中。Mask-Form[6]将分割任务统一为掩码的分类问题，即输出二进制掩码和相应的类别，从而在语义和全景分割任务中实现最先进的性能。K-Net[41]通过可学习内核将实例分割标准化为语义分割，以同时完成语义、实例和全景分割任务。Mask2Form[5]将掩码注意力机制应用于MaskForm，以提高统一模型的泛化和每个任务的性能。然而，这些统一的框架仍然需要为每个任务训练一个单独的模型以实现最佳性能。我们提出的FreeSeg进行一次性训练以优化多合一模型以完成多个分割任务。

方法

在这里插入图片描述

FreeSeg Framework

获取一个all-in-one的模型来获取语义、实例和全景分割的所有类的结果，构建FreeSeg，两阶段framework。
第一阶段提取universe mask proposals，第二阶段利用CLIP在这些masks上执行zero-shot分类。

训练

第一阶段：
训练数据，图片 $I$ ，可见类集合 $C_{seen}$ ，任务名称 $T_{train}$ ，多任务标签 $M_{gt}$ ；
图片被编码为 $F_v \in R^{N \times D}$ ，类别无关的masks为 $\in R^{N \times H \times W}$ ，其中 $N$ 和 $D$ 为queries的数量和特征维度。注意 $M^{gt} \in ( M^{gt}_{sem}, M^{gt}_{ins}, M^{gt}_{pan})$ ，
mask的损失为 $\mathcal{L}_{mask}=\mathcal{L}_{F}(M, M^{gt})+\mathcal{L}_{D}(M, M^{gt})$ ,
其中， $\mathcal{L}_{F}$ 和 $\mathcal{L}_{D}$ 分别为focal loss 和 dice loss；
由于训练过程中任务之间的梯度冲突，同时优化所有任务通常很困难，因此每次迭代只选择一个任务标签进行监督，该标签是从 $(M^{gt}_{sem}, M^{gt}_{ins}, M^{gt}_{pan})$ 选择。
$F_t \in R^{C \times D}$ 是text embedding, 其中C代表类别的数量。
在这里插入图片描述

测试

在测试阶段，经过训练的掩码提案提取器生成一组带有文本指导的二进制掩码（binary masks），并利用预先训练的 CLIP 视觉编码器来获取掩码级别的视觉概念。FreeSeg 计算掩码表示和紧凑文本嵌入之间的相似度，并根据自适应任务提示输出面向任务的分割结果。借助自适应提示学习，FreeSeg 可以处理任意任务和类别。测试类别集 $C_{test}$ 由可见类 $C_{seen}$ 和其他未可见类 $C_{unseen}$ 组成。

Adaptive Prompt Learning ----------theres

为了将任意任务和类别编码为紧凑的文本抽象，我们提出了自适应提示学习包括自适应的任务提示 $P_t$ 和类别提示 $P_c$ 。固定提示将所有类别和任务名称放入相同的模板中，这不是任务类别对上下文的最佳表示形式。而自适应提示学习将任务和类别文本转换为一组可学习的向量，这些向量连接为文本嵌入以促进模型训练。
自适应任务提示：
具体来说，自适应任务提示 $P_t$ 是根据模板 {◦ ◦ …t …◦ ◦ } ，其中 ◦ 表示可学习的向量。t 是任务集 T 中的相应任务名称，其中包含“语义分割”、“实例分割”或“全景分割”。然后，任务提示由预训练的 CLIP 文本编码器 $\Psi$ 嵌入：
$E_t=\Psi(P_t(t)), t \in T$

自适应类别提示：
根据模版 {◦ ◦ …t …◦ ◦ } ，其中c代表填充的类别名。
$E_c=\Psi(P_c(c)), c \in C_{seen}$

之后拼接得到多通道embeddings
$F_t=Cat(E_c, E_t)$
值得注意的是，输入类别可以是任意的，因此 Ft 可以无缝地适应看不见的类别进行开放词汇细分。

Semantic Context Interaction

普通的视觉概念忽略了任务和类别信息，这些信息可以为综合推理提供更可靠的线索。
针对这一问题，我们创造性地引入了语义上下文交互模块，通过将自适应文本嵌入有效地聚合到视觉概念中，提高跨模态特征的匹配和对齐能力。
在这里插入图片描述

测试时间提示调整

为了改善不可见类别的跨模态对齐，我们利用测试时间自适应（TTA）算法在测试期间优化自适应类提示，称为测试时间提示调整。在测试阶段，我们过滤掉看不见的类的余弦相似度分数 $S_u$ ，并计算相应的熵：
在这里插入图片描述
其中， $N_u$ 是不可见类的数量。
选取高可信度的queries， $S_u^*=S_u[entro< t]$ ，t为高可信度的阈值，因为值过低说明预测可信度过低。
用以下loss优化自适应类提示的参数：

结果 — 待补充

数据集：COCO，ADE20K, PASCAL VOC2012;
8张A100;

可以发现，可见类和不可见类上的识别率都有所提升；
在这里插入图片描述

总结

在本文中，我们提供了一个通用的框架，即FreeSeg来完成统一的开放词汇分割。
据我们所知，我们首次尝试使用具有相同架构和推理参数的单一模型来完成开放词汇语义、实例和全景分割。与单任务训练相比，FreeSeg成功地将训练成本降低了约三分之二，并取得了更好的泛化性能。在真实场景部署中只需要一个统一的模型，从而降低了推理过程的计算能力、内存成本和带宽。
本文工作可以提供启发性的见解，并为开放词汇分割提出一条新的前进道路。

扩展 – 待补充

全景分类中的任务感知指标PQ，RQ，SQ

在这里插入图片描述
全景分割PQ (panoptic segmentation) 、分割质量SQ ( segmentation quality)、识别质量RQ (recognition quality)
RQ是检测中应用广泛的 F1 score，用来计算全景分割中每个实例物体识别的准确性；
SQ 表示匹配后的预测 segment与标注 segment 的 mIOU，如下图所示，只有当预测 segment 与标注 segment 的 IOU 严格大于 0.5 时，认为两个 segment 是匹配的。