这篇论文是CLIP模型较早的在弱监督分割上应用的论文。
论文标题:
Cross Language Image Matching for Weakly Supervised Semantic Segmentation
作者信息:
代码地址:
https://github.com/CVI-SZU/CLIMS
Abstract
(CAM的缺点)CAM只激活个别类别的对象区域,并且经常错误的把很多相似的区域也包含进来。
(WSSS的缺点)传统的WSSS只給一个标签,无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS),核心想法就是通过NLP的监督(和CLIP相同)获得更完整的CAM的物体图像,并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数,分别是 1.object region loss 2.background region loss 3. label matching loss
Introduction
(现存框架的问题)常规WSSS任务三段:1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练,在产生CAM的过程中出现了不必要的背景信息的激活。
(作者方法的优势)CLIMS是基于CLIP的,CLIP可以从NLP中学习更广阔的语义的概念,而不仅仅只是预先确定好的类别,那么CLIMS就有潜力学习到多个类别的高质量的CAM,剔除一些无关的背景。
(关键做法)作者使用卷积层替换掉了GAP和全连接,让后面的CLIP层直接引导CAM的生成。又提出三个损失函数:
L
O
T
M
L_{OTM}
LOTM:Object region and Text label Matching Loss (目标区域和text label的匹配损失)
L
B
T
M
L_{BTM}
LBTM:Back ground region and Text label Matching Loss(背景区域和text label的匹配损失)
L
C
B
S
L_{CBS}
LCBS:Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)
Methodology
3.1. Revisiting the Conventional CAM
常规的CAM的生成:图像卷积后输入GAP,FCN训练分类模型。然后对特征层应用1×1的卷积,生成CAM。
交叉熵训练分类模型:
应用卷积:
传统CAM无法很难区分需要激活和不必要激活的对象背景部分。
3.2. Cross Language Image Matching Framework
作者去除了GAP,直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征
P
k
P_k
Pk:
根据
P
k
P_k
Pk进行在图像上选取前景
P
k
P_k
Pk和背景区域
1
−
P
k
1-P_k
1−Pk,输入的CLIP的图像编码中获得representation
vectors:
同时应用CLIP中对标签的处理方法,生成text prompts,输入到CLIP中的文本编码中:
3.3 Object region and Text label Matching
设计损失函数学习前景区域
V
k
i
o
V_k^{io}
Vkio和前景的文本
V
k
t
o
V_k^{to}
Vkto(正样本学习):
3.4 Background region and Text label Matching
设计损失函数学习背景区域
V
k
b
o
V_k^{bo}
Vkbo和前景的文本
V
k
t
o
V_k^{to}
Vkto(负样本学习):
3.5. Co-occurring Background Suppression
作者找了一些和目标相似的类别,作为反例进行学习,以减小进行CAM的错误:
v
k
,
l
t
b
v_{k,l}^{tb}
vk,ltb表示k个目标的l个相关联的近似的类别:
3.6. Area Regularization
作者认为仅有上三个损失函数,如果在激活图中同时包含了不相关的背景和目标对象,那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小,以确保不相关的背景被排除在激活映射
P
k
P_k
Pk中:
(按照类别数量与像素数量求均值,我没看懂到底为啥这样?有大神能解释下嘛)
3.7. Overall Training Objective
总的损失函数就是对上述四个按照比例求和:
这几个系数为超参数,在模型调整。
Experiments
(这篇论文只讲了生成CAM的方法,作者和上下游的工作相结合,进行很多实验,如下表)