【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation

最新推荐文章于 2023-11-02 17:19:46 发布

阿委困的不能行

最新推荐文章于 2023-11-02 17:19:46 发布

阅读量908

点赞数

文章标签：论文阅读深度学习人工智能

本文链接：https://blog.csdn.net/rocking_struggling/article/details/127199358

版权

这篇论文是CLIP模型较早的在弱监督分割上应用的论文。

论文标题：

Cross Language Image Matching for Weakly Supervised Semantic Segmentation

作者信息：

在这里插入图片描述

代码地址：

https://github.com/CVI-SZU/CLIMS

Abstract

（CAM的缺点）CAM只激活个别类别的对象区域，并且经常错误的把很多相似的区域也包含进来。
（WSSS的缺点）传统的WSSS只給一个标签，无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS)，核心想法就是通过NLP的监督（和CLIP相同）获得更完整的CAM的物体图像，并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数，分别是 1.object region loss 2.background region loss 3. label matching loss

Introduction

在这里插入图片描述
（现存框架的问题）常规WSSS任务三段：1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练，在产生CAM的过程中出现了不必要的背景信息的激活。

（作者方法的优势）CLIMS是基于CLIP的，CLIP可以从NLP中学习更广阔的语义的概念，而不仅仅只是预先确定好的类别，那么CLIMS就有潜力学习到多个类别的高质量的CAM，剔除一些无关的背景。

（关键做法）作者使用卷积层替换掉了GAP和全连接，让后面的CLIP层直接引导CAM的生成。又提出三个损失函数：
$L_{OTM}$ :Object region and Text label Matching Loss (目标区域和text label的匹配损失)
$L_{BTM}$ :Back ground region and Text label Matching Loss（背景区域和text label的匹配损失）
$L_{CBS}$ :Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)

Methodology

在这里插入图片描述

3.1. Revisiting the Conventional CAM

常规的CAM的生成：图像卷积后输入GAP，FCN训练分类模型。然后对特征层应用1×1的卷积，生成CAM。
交叉熵训练分类模型：
在这里插入图片描述
应用卷积：

传统CAM无法很难区分需要激活和不必要激活的对象背景部分。

3.2. Cross Language Image Matching Framework

作者去除了GAP，直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征 $P_k$ ：
在这里插入图片描述
根据 $P_k$ 进行在图像上选取前景 $P_k$ 和背景区域 $1-P_k$ ，输入的CLIP的图像编码中获得representation
vectors：

同时应用CLIP中对标签的处理方法，生成text prompts，输入到CLIP中的文本编码中：

3.3 Object region and Text label Matching

设计损失函数学习前景区域 $V_k^{io}$ 和前景的文本 $V_k^{to}$ (正样本学习):
在这里插入图片描述

3.4 Background region and Text label Matching

设计损失函数学习背景区域 $V_k^{bo}$ 和前景的文本 $V_k^{to}$ （负样本学习）:
在这里插入图片描述

3.5. Co-occurring Background Suppression

作者找了一些和目标相似的类别，作为反例进行学习，以减小进行CAM的错误：
$v_{k,l}^{tb}$ 表示k个目标的l个相关联的近似的类别：
在这里插入图片描述

3.6. Area Regularization

作者认为仅有上三个损失函数，如果在激活图中同时包含了不相关的背景和目标对象，那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小，以确保不相关的背景被排除在激活映射 $P_k$ 中:
在这里插入图片描述
(按照类别数量与像素数量求均值，我没看懂到底为啥这样？有大神能解释下嘛)