【对比学习+分割】CRIS：CLIP驱动RIS图像分割（CVPR 2022）

Willow_CS_DN

已于 2024-01-19 16:35:00 修改

阅读量2.6k

点赞数 33

分类专栏：深度学习论文文章标签：计算机视觉人工智能

于 2024-01-17 17:51:08 首次发布

本文链接：https://blog.csdn.net/Q1599293439/article/details/135626800

版权

深度学习论文专栏收录该内容

8 篇文章

订阅专栏

文章介绍了一种基于CLIP的端到端参考图像分割框架CRIS，它通过视觉语言解码和对比学习，有效传递多模态知识，实现了文本描述指导的精确像素级分割。实验结果显示CRIS在无需后处理时超越了现有最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：CRIS: CLIP-Driven Referring Image Segmentation
代码地址：CRIS.pytorch
相关领域： CLIP、RIS、对比学习、多模态

指代图像分割（Referring Image Segmentation，RIS）（这个词是我翻译的感觉很奇怪，后面用RIS代替）旨在根据自然语言表达来标记图像或视频中表示对象实例的像素，也就是根据自然语言描述来实现图像分割。
开放词汇语义分割（Open Vocabulary Semantic Segmentation）是一种新颖的语义分割方法，其特点在于可以识别任意类别的语义区域，而不是仅限于预定义的类别。

摘要

指代图像分割（Referring Image Segmentation，RIS）旨在通过自然语言表达对参考对象进行分割。由于文本和图像之间具有明显的数据属性差异，因此网络能够很好地对齐文本和像素级特征是具有挑战性的。现有的方法使用预训练模型来促进学习，但是数据分别从预训练模型中转移到语言和视觉知识，忽略了多模态对应信息。受CLIP（Contrastive Language-Image Pretraining）在最近取得的进展的启发，本文提出了一个端到端的CLIP驱动的参考图像分割框架（CRIS）。为了有效地传递多模态知识，CRIS采用了视觉语言解码和对比学习来实现文本到像素的对齐。具体而言，我们设计了一个视觉语言解码器，将细粒度的语义信息从文本表示传播到每个像素级激活，从而促进两种模态之间的一致性。此外，我们提出了文本到像素的对比学习，明确强化文本特征与相关的像素级特征相似，与不相关的特征不相似。在三个基准数据集上的实验结果表明，我们提出的框架在没有任何后处理的情况下显著优于最先进的性能。

首图

Main Idea
(a) CLIP 训练图像编码器和文本编码器，以预测一批图像 I 和文本 T 的正确配对，这可以捕捉多模态对应信息。 (b) CRIS 为了将CLIP模型从图像级别传递到像素级别的知识，我们提出了一个CLIP驱动的参考图像分割（CRIS）框架。首先，我们设计了一个视觉语言解码器，将细粒度的语义信息从文本特征传播到像素级视觉特征。其次，我们将所有像素级视觉特征V与全局文本特征T相结合，并采用对比学习，拉近文本和相关的像素特征，推远其他不相关的特征。

主图

CRIS framework

介绍了提出的CRIS框架是如何将CLIP的知识转移到RIS，通过利用多模态对应信息实现文本到像素的对齐。
首先，我们使用ResNet 和Transformer 分别提取图像和文本特征，然后将它们融合以获得简单的多模态特征。
其次，这些特征和文本特征被输入到视觉语言解码器中，以将细粒度的语义信息从文本表示传播到像素级视觉激活。
最后，我们使用两个投影器生成最终的预测掩码，并采用文本到像素的对比损失，明确将文本特征与相关的像素级视觉特征对齐。

文本编码器

输入L个token，采用Transformer编码器，输出 $F_t$ 大小L*C就是直接编码得到的句子信息，C是dim； $F_s$ 是全局信息，dim是C’；

图像编码器

输入图片H×W×3，采用2th-4th stages ResNet编码器，得到特征 $F_{v2}$ 、 $F_{v3}$ 、 $F_{v4}$ 分别是原始图像下采样8、16、32倍的特征，这里的C是通道数。比如 $F_{v4}$ ∈ R { H/32 × W/32 × $C_4$ }。

Cross-modal Neck

采用文本全局特征 $F_s$ 和图像 $F_{v4}$ 特征融合，Up是上采样。一通融合，最后要的是 $F_v$ ，融合公式：
在这里插入图片描述

Vision-Language 解码

用了一些自注意力和交叉注意力，整合了逐句的语义特征 $F_t$ 和带有全局语义信息的图像 $F_v$ 特征，得到了representaion $F_c$

Text-to-Pixel 对比学习

CLIP缺点：CLIP通过将文本表示与图像级别表示的对齐来学习加强的图像级别视觉表示，但这种知识对于RIS来说并不是最优的，因为它缺乏更精细的视觉概念。

为了解决这个问题，我们设计了一种文本到像素的对比损失，明确将文本特征与相应的像素级视觉特征对齐。如主图所示，采用图像和文本投影器将 $F_c$ 和 $F_s$ 转换如下：
在这里插入图片描述
其中 $z_t$ ∈ $R^D$ ， $z_v$ ∈ $R^{N×D}$ ，N = H/4 × W/4，Up表示4×上采样。这里注意：对于每个样本，语义特征的维度等于每个像素的特征维度，这样后面就方便算相似度了。
接下来是对比部分：给定映射后的文本特征 $z_t$ 和映射后的像素级特征 $z_v$ ，采用对比损失来优化两种模态之间的关系，其中 $z_t$ 被鼓励与其相应的 $z_v$ 相似，与其他不相关的 $z_v$ 不相似。通过点积测量的相似性，文本到像素的对比损失可以表示为：
在这里插入图片描述
其中P和N表示Ground Truth中类别“1”和“0”。**上面的公式表示针对每个像素和语义特征做计算，下面的公式表示对每个像素的计算值做平均。**最后，为了获得最终的分割结果，我们将σ( $z_t*z_v$ ) reshape为H/4 × W/4，并将其上采样回原始图像大小。