整理:基于CLIP的文本特征对齐在语义分割中的应用与挑战

语义分割旨在为图像的每个像素附加语义标签。自深度学习兴起以来,语义分割已广泛应用于现实世界的应用中,传统方法用于语义分割取得了显着的性能。然而,这些方法的卓越性能在很大程度上依赖于大量完全注释的掩模。收集如此高质量的像素级注释既耗时又昂贵。因此,有必要探索无监督的注释语义分割,其中只有没有注释的图像可用。其中, CLIP通过比较不同类别的图像特征和文本特征之间的对齐程度,展示了优越的零样本分类性能。然而,图像级视觉特征和文本特征之间的良好对齐并不一定意味着像素级视觉特征和文本特征之间的良好对齐。因此,对于 CLIP 来说,难免会出现意想不到的偏差。

为了应对CLIP出现的类偏好偏差,我们总结了四种基于CLIP的技术点改进。

论文1:CLIP-S4: Language-Guided Self-Supervised Semantic Segmentation

方法:本文提出了 CLIP-S4,它利用自监督像素表示学习和视觉语言模型来实现各种语义分割任务(例如,无监督、迁移学习、语言驱动的分割),而无需任何人工注释和未知类别信息。我们首先从图像的不同增强视图中通过像素段对比学习来学习像素嵌入。

创新点:

(1)本文提出了一种自监督语义分割方法,它将像素分段对比学习与预训练视觉语言模型的指导相结合。我们的方法可以在没有任何人工注释的情况下生成高质量的像素嵌入,并应用于各种语义分割任务。

(2)通过引入和解决无类语义分割的新任务,我们为无需任何人工注释的语言驱动语义分割开辟了新的研究潜力(表1)。与之前假设所有类名在训练期间已知的工作不同,我们的方法可以从未标记的图像数据中发现未知类,甚至不需要知道未知类名。

(3)在四个流行的数据集上,我们的方法比最先进的无监督和语言驱动的语义分割方法获得了一致和实质性的收益。更重要的是,我们的方法在未知类的分割方面显着优于最先进的方法。

结果:

论文2:ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation

方法:设计了一个掩码解码器,它以 CLIP 和校正 logits 的特征作为输入,并借助 Gumbel-Softmax 运算输出校正分割掩码。为了使偏差建模和纠正过程有意义且有效,施加了基于屏蔽视觉特征和不同类别的文本特征的对比损失。为了进一步改进分割,我们通过最小化我们设计的掩模引导、特征引导和文本引导损失项,将修正后的 CLIP 中的知识提炼为高级分割架构。

创新点:

(1)我们观察到,当将CLIP 应用于像素级理解任务时,会出现意外偏差,包括空间偏好偏差和类偏好偏差。这种偏差可能会在很大程度上限制基于 CLIP 的分割模型的分割性能。

(2)我们建议分别通过可学习的参考文本输入和位置嵌入的投影来显式编码CLIP 的类偏好和空间偏好偏差,并通过矩阵乘法将两种偏差建模为一个偏差logit 图。通过简单的 logit 减法机制和基于不同类别的屏蔽特征的对比损失,我们有效地纠正了 CLIP 的偏差。

(3)我们在无监督环境下对分割基准进行了广泛的实验。实验结果表明我们的方法比以前最先进的方法具有优越的性能。

结果:

论文3:Extract Free Dense Labels from CLIP

方法:本文研究 CLIP 在像素级密集预测方面的内在潜力,特别是在语义分割方面。为此,通过最小的修改,我们表明,在没有符号和微调的情况下,MaskCLIP 在跨各种数据集的开放概念上产生了令人信服的分割结果。通过添加伪标签和自训练,MaskCLIP+大幅超越了SOTA转导式零样本语义分割方法。

创新点:

(1)CLIP 模型的利用:CLIP 是一个由 OpenAI 提出的视觉-语言预训练模型,它能够将图像和文本映射到相同的向量空间。该论文利用了 CLIP 的这种能力,通过将图像的不同区域与文本描述进行匹配,生成对应的密集标签。

(2)无监督学习:传统的密集标签提取通常依赖于大量标注数据,而该方法通过 CLIP 模型,可以在没有显式标注的情况下生成细粒度的图像分割标签。

(3)视觉-语言对齐:利用 CLIP 模型的视觉-语言对齐特性,该方法可以通过选择合适的文本描述,来指导模型生成图像的密集标签。

(4)实验结果:通过实验验证,该方法在多个视觉任务(如语义分割等)上取得了良好的性能,证明了从 CLIP 模型中提取的无监督密集标签的有效性。

结果:

论文4:Perceptual Grouping in Contrastive Vision-Language Models

方法:我们提出了一组最小的修改,从而产生能够独特地学习语义和空间信息的模型。我们通过零样本图像识别、无监督的自下而上和自上而下的语义分割以及鲁棒性分析来衡量这种性能。

创新点:

(1)识别对比视觉语言模型 [85, 50] 的系统性故障,无法正确识别对象在图像中的位置,并对语义相关的内容进行分组。

(2)设计一组最小的更改,为这些模型赋予感知分组,从而实现最先进的零样本分割,而无需对任何分割数据进行训练或执行特定于任务的微调。

(3)我们的模型中本地化能力的出现独特地导致了反事实操作的鲁棒性。其鲁棒性程度即使不超过以前采用专门训练方法的最先进的监督学习方法,也能与之相媲美。

结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值