(CVPR2022) 跨语言图像弱监督语义分割CLIMS

Sierkinhane

已于 2022-08-11 20:21:58 修改

阅读量2.7k

点赞数 3

分类专栏：计算机视觉

于 2022-08-08 15:09:23 首次发布

本文链接：https://blog.csdn.net/sierkinhane/article/details/126228039

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

开源仓库：https://github.com/CVI-SZU/CLIMS

CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

图 1 CAM与CLIMS的对比图

摘要：众所周知，类别激活图（Class Activation Map, CAM) 通常只激活物体的判别性区域并且包含了许多与物体相关的背景误激活。仅有图像级标注信息的弱监督语义分割（Weakly Supervised Semantic Segmentation, WSSS）模型很难抑制那些多样化的背景区域。因此，基于对比语言图像预训练模型（Contrastive Language Image Pretraining, CLIP），本文提出了一个新颖的跨语言图像匹配（CLIMS）的弱监督语义分割框架。框架的核心思想是引入自然语言监督和设计物体、背景区域和文本标签匹配损失来获得更完整的类别激活图。并设计了区域正则化和背景抑制损失，以防止模型在CAM图中激活与类别相关的背景区域。这些设计使CLIMS 为目标对象生成更完整和紧凑的激活图。

图 2 CLIMS的网络结构图

图5 展示了本文提出的基于跨文本图像匹配（Cross Language Image Matching for WSSS, CLIMS）框架。它由一个骨干网络和一个文本驱动的评估器组成，其中评估器包括三个基于大型文本图像匹配预训练模型CLIP的损失函数，即对象区域和文本标签匹配损失 (LOTM)、背景区域和文本标签匹配损失（LBTM）、共现背景抑制损失（LCBS）和区域正则化损失（LREG）。核心思想是通过文本驱动评估器的监督来学习初始CAM图的生成。首先，给定一张图像X，主干网络预测初始 CAM图p，它表示每个像素属于一个类别的概率，如图5（a）所示。然后将p输入图像X相乘后的结果，作为文本驱动评估器的输入。如图5（b）所示。将掩码后的结果及其对应的文本类别标签分别输入到 CLIP 模型的图像编码器特征向量vkio以及文本编码器提取特征向量vkto并计算它们之间的余弦相似度。我们可以根据数据集定义前景对象的文本标签，例如“train”、“cat”和“person”等。在训练期间，L_OTM 旨在最大化前景对象区域和给定文本标签之间的相似性，例如“a photo of train”：

(1)

(2)

L_OTM虽然能使CAM图可以逐渐接近图像中的目标对象，但不能保证物体激活区域的完整性。例如，即使只有鸟的头部可见，图像仍然可以被CLIP模型识别成一只鸟。因此，我们提出L_OTM来最小化掩码前景区域后的 X*(1-p) 和“a photo of train”之间的相似性：

(3)

(4)

这可以去除 1-p 中激活的物体区域，即在 p中激活更多可能的物体区域。然而，当物体区域被激活时，与物体密切相关的背景，例如火车和铁路、船和河流等，通常也会被激活，因为没有可用像素级标签。为了解决这个问题，我们额外定义了一组与类相关的背景文本标签，例如“railroad”（火车的共现背景）和“river”（船的共现背景）等。基于这些文本标签，我们设计了L_CBS以最小化X*(1-p)和这些同时出现的背景文本标签提取的特征向量vkio和vktb的相似性：