摘要
众所周知,CAM (Class Activation Map) 通常只激活有区别的对象区域,并错误地包含大量与对象相关的背景。由于WSSS(弱监督语义分割)模型只有一组固定的图像级对象标签可用,因此抑制由开放集对象组成的不同背景区域可能非常困难。在本文中,我们提出了一种基于最近引入的用于 WSSS 的对比语言图像预训练 (CLIP) 模型的新型跨语言图像匹配 (CLIMS) 框架。我们框架的核心思想是引入自然语言监督来激活更完整的对象区域并抑制密切相关的开放背景区域。特别是,我们设计了对象、背景区域和文本标签匹配损失来指导模型激发每个类别的 CAM 更合理的对象区域。此外,我们设计了一个同时出现的背景抑制损失,以防止模型激活密切相关的背景区域,具有一组预定义的类相关的背景文本描述。这些设计使所提出的CLIMS能够为目标对象生成更完整、更紧凑的激活映射。在PASCAL VOC2012数据集上的大量实验表明,我们的CLIMS显著优于之前最先进的方法。
Code will be available at https://github.com/CVISZU/CLIMS
方法
图 2 描述了 CLIMS 的概述。图2(a)所示的骨干网类似于传统的CAM解决方案,只是去掉了GAP层,在W之后直接应用sigmoid函数σ:
虽然传统的WSSS方法只使用一组固定的预定对象类别的监督,但我们提出了基于CLIP模型的文本驱动评估器来探索数据集中的其他对象类别。如图2(b)所示,文本驱动的评估器由来自CLIP模型的图像编码器fi(·)和文本编码器ft(·)组成。首先,将Pk和(1−Pk)乘以X来分别屏蔽前景对象和背景像素。然后将结果通过 fi(·) 映射到表示向量 vio k 和 vibk:
在CLIP[25]之后,(X·Pk)对应的对象文本提示k表示为“{}的照片,例如,“火车的照片”。相反,相应的类相关背景文本提示 TB k,l 被手动预定义为一组与第 k 个类别的对象密切相关的 L 个共现背景。例如,与类别相关的船背景(第 k 个物体)是{"a photo of river", "a photo of a lake"}. Then tb k,0={"a photo of river"}, tb k,1={"a photo of a lake"},文本表示可以得到如下:
其中 to k 和 TB k,l 分别表示对象的文本标签和特定 classk 的第 l 个类相关共现背景。
图二:概述了所提出的WSSS跨语言图像匹配框架,即CLIMS。(a) 用于预测初始 CAM 的骨干网络。σ 表示 sigmoid 激活函数。W 表示卷积层的权重矩阵。(b) 文本驱动的评估器。它由三个基于clip的损失函数组成,即目标区域和文本标签匹配损失LOT M、背景区域和文本标签匹配损失LBT M,以及同时出现的背景抑制损失LCBS。最好以彩色观看。
3.3. Object region and Text label Matching
给定第 k 个前景对象表示 vio k 及其对应的文本表示 vto k ,我们首先计算图像和文本表示之间的余弦相似度,然后使用所提出的对象区域和文本标签匹配损失 LOT