【论文阅读】L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly Supervised Semantic Seg

一篇发表在CVPR2022上的弱监督分割的论文。

论文标题:

L2G: A Simple Local-to-Global Knowledge Transfer Framework for
Weakly Supervised Semantic Segmentation

作者信息:

在这里插入图片描述

代码地址:

https://github.com/PengtaoJiang/L2G

Abstract

提出了L2G模型,一种从local知识到global知识的转移的框架。作者发现使用局部图像作为分类的输出,可以学习更多的细节区域,针对这点,作者首先利用一个局部分类网络,从输入图像中随机裁剪的多个local feature map中提取注意力(CAM);然后global feature map中在线学习多个local feature map的互补知识。

Introduction

在这里插入图片描述
CAM方法是弱监督分割中重要方法,人们探索如何生成更advance的CAM,常见的策略有:

  • Adversarial erasing
  • Online attention accumulation
  • Seed region expansion
  • Affinity learning

(作者的motivation)作者和这些方法不同:作者发现,以local 图像 作为输入时,分类模型可以发现更多的鉴别区域。作者利用此来提高生成的CAM的质量。
(作者的思路)从全局图像中random crop获得local图像,然后建立一个local网络捕获丰富的物体细节信息,建立一个global网络去蒸馏鉴别local网络的attenion知识。
(作者方法的优势)1.作者从多个local view建立attention map,帮助网络学习一些细节的区域语义信息,并且多个local map应该互补。2.通过在线学习方式可以将这些loacl知识有效的转移到global 上去.3.作者的方法比较简单和通用,可以增添额外的约束来提高CAM的生成质量。
在这里插入图片描述

Method

在这里插入图片描述

3.1. Prerequisites

首先介绍了分类损失:
在这里插入图片描述
和生成CAM的方法:
在这里插入图片描述
(有些论文不写下面这个max(Relu(F)))

3.1. Overall Framework

包含四个模块a global network, a local network, an attention transfer module, and a shape transfer module.其中:

  • global network和local network均是常规的分类网络,比如VGG或者Resnet
  • attention transfer module包含两个损失函数,classification loss L c l s L_{cls} Lcls和attention transfer loss L a t L_{at} Lat
  • shape transfer module中的损失函数是从 L a t L_{at} Lat衍生的 L s t L_{st} Lst

总的损失函数是:
在这里插入图片描述
L k t L_{kt} Lkt表示 L a t L_{at} Lat或者 L s t L_{st} Lst,取决于 L s t L_{st} Lst是否存在。

3.3. Local-to-Global Attention Transfer

记random crop产生的local view为 { V 1 , V 2 , . . . , V n } \{V_1,V_2,...,V_n\} {V1,V2,...,Vn},记global view为 V I V_I VI
local网络的最后一个卷积层点的输出为 { F 1 , F 2 , . . . , F n } \{F_1,F_2,...,F_n\} {F1,F2,...,Fn},每个都包含C个通道,表示C个类别。
global网络的最后一个卷积层的的输出为 F ^ \widehat{F} F ,包含C+1个通道,表示C个类别和背景。

Classification Loss:

对所有的localview的输出,放到一个全局的池化层中,获得N个1维度向量 { f 1 , f 2 , . . . , f n } \{f_1,f_2,...,f_n\} {f1,f2,...,fn},用它们训练分类损失 L c l s L_{cls} Lcls
在这里插入图片描述
(本质是每个单独的local view损失的均值)

Attention Transfer Loss:

利用公式2对所有local view产生CAM图,对于第c个类别,记为 { A 1 c , A 2 c , . . . , A n c } \{A_1^c,A_2^c,...,A_n^c\} {A1c,A2c,...,Anc}。若c不在图像及标签中,则对应CAM的该通道的值置为0。
对于global view的输出 F ^ \widehat{F} F ,作者在对每个通道上应用Softmax,也获得一个c的location的score map。
在这里插入图片描述
对获得的 G c G^c Gc采用同样的方式进行裁剪,即 { G 1 , G 2 , . . . , G n } \{G_1,G_2,...,G_n\} {G1,G2,...,Gn},即能和local view的进行匹配,如 ( G 1 , A 1 ) (G_1,A_1) (G1,A1)。作者采用MSE损失来描述它们之间的距离,并进行训练来表达,local-2-global的转移过程:
在这里插入图片描述
前向过程则仅由global view产生,不采用local view的。

3.4. Local-to-Global Shape Transfer

作者认为转移的过程只用到了图像级别的标签,导致物体边界捕获效果不行。作者加入了shape constraint,使用显著性检测模型,对显著对象进行分割并提供shape信息。
具体的,通过对local view的cam { A i } \{ A_i\} {Ai}进行二值化获得maps { B i } \{ B_i\} {Bi}。同时对给定图像输入到显著性分割模型中,定位到相同区域坐标获得 { S i } \{ S_i\} {Si}。此时attention transfer loss为:
在这里插入图片描述
(如果有显著目标就按照公式上面的进行计算,如果没有就下面。作者这里结合了显著性目标检测的信息去进一步优化CAM)。

Experiments

和一些sota的效果对比,当然作者的效果很好:
在这里插入图片描述

其他

这篇论文类似于(CVPR2020 SEAM)Self-supervised Equivariant Attention Mechanism
for Weakly Supervised Semantic Segmentation.
以及(CVPR2022 CLIMS)Cross Language Image Matching for Weakly Supervised Semantic Segmentation.
然后引入了saliency model去处理模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值