Splitting Vs. Merging: Mining Object Regions with Discrepancy and Intersection Loss for Weakly Super

Splitting Vs. Merging: Mining Object Regions with Discrepancy and Intersection Loss for Weakly Supervised Semantic Segmentation

论文地址

摘要

本文关注于image-level的WSSS任务。本文通过训练一个region-mining模块准确高亮目标区域以生成高质量伪掩码。然而这个模块只在最有辨识度的区域高亮,本文通过一个新的优化过程解决这一问题。我们提出一个Splitting vs. Merging优化策略,这个策略主要由Discrepancy loss和Intersection loss。Discrepancy loss旨在挖掘不同的空间区域,而不只是最有辨识度的区域;Intersection loss旨在挖掘不同maps的common区域。通过这一策略可以有效拓展热力图。

1 Introduction

pixel-level标注费时费力,因此出现了弱监督。然而对于弱监督,一般模型只会分割出最有辨识度的区域,主要是因为只有classification loss。

有些人用区域擦除来解决这一问题,当然区域擦除需要频繁重复做训练和擦除过程。区域擦除从前传的角度看问题,而我们的方法从反传的角度看问题。从本质上讲,我们的目标是搜索满足分类目的的不同空间图案的localization maps,所有maps的联合可以突出整个目标区域。由此我们提出了Discrepancy loss。我们加入Intersection loss解决分裂效应。

本文的contributions:

  • 我们提出从反向传播的新角度扩展区域挖掘模型生成的突出显示区域。
  • 提出Discrepancy loss挖掘localization maps的不同区域的图案,这导致了localization maps的分裂效应。
  • 提出Intersection loss缓解分裂效应,这导致了合并效应。
  • 通过实验证明了策略的有效性。

2 Related Works

3 Approach

本章首先重温CAM,然后介绍两个loss,最后对localization maps归一化,生成伪掩码并进行训练。

3.1 Revisiting CAM

CAM在以前的文章中已经讲了很多了,在这里不再赘述,本文用的是CAM的一个变体。如Fig. 1所示,从特征提取器出来的特征图 X ∈ R W × H × D X\in\mathbb R^{W×H×D} XRW×H×D,D是特征维度。从分类器中出来的S是 S ∈ R W × H × C S\in\mathbb R^{W×H×C} SRW×H×C,C是类别数。然后用GAP得到image-level prediction score s ∈ R C s\in\mathbb R^C sRC。score map S其实就是localization maps。
在这里插入图片描述

3.2 Splitting vs. Merging

我们的结构由Reference Stream和Expanding Stream组成。Reference Stream就是原先的CAM。
在这里插入图片描述
Expanding Stream和正常的CAM类似,但是它有两个patch-level classifiers,接下来我们看看Discrepancy loss长什么样儿:
L d i s c = − 1 H W C ∑ i , j , c ∣ ∣ z i j c A − z i j c B ∣ ∣ \mathcal L_{disc}=-\frac{1}{HWC}\sum_{i,j,c}||z_{ijc}^A-z_{ijc}^B|| Ldisc=HWC1i,j,czijcAzijcB
其中,
z i j c A = e s i j c A ∑ i , j e s i j c A z_{ijc}^A=\frac{e^{s_{ijc}^A}}{\sum_{i,j}e^{s_{ijc}^A}} zijcA=i,jesijcAesijcA
s i j c A s_{ijc}^A sijcA S A S_A SA对应位置的值,i,j是位置,c是类别。B的相关计算同A。
想要让loss越来越小,两个z的距离应该越来越大(注意loss函数前面有个负号,我之前忽略了这个,半天也没理解这个loss函数),这样Discrepancy loss就促进生成两个不同空间图案的maps。但是单单使用这个loss,会导致得到的图案是偏于分裂的(我想是因为两个score map的距离越来越远,因此这两个map上score的分布越来越不一样)。为了解决这个问题,作者又提出了后面的Intersection loss,也就是Fig. 2中的Cls loss inter S i n t e r S_{inter} Sinter也是一个score map,每个位置都取 S A , S B S_A,S_B SA,SB中对应位置score比较小的值,然后对 S i n t e r S_{inter} Sinter做GAP,然后求分类损失,这里和CAM都是一样的,这样做的目的就是强迫 S A , S B S_A,S_B SA,SB中score低且和类别关联性强的像素点的score提高,这样就解决了分裂的问题。

3.3 Mask Generation

对于每个localization map S S S(i.e., S A , S B , S C S_A,S_B,S_C SA,SB,SC),我们先让他们通过RELU层,然后执行对每个类别通道执行min-max normalization得到normalized map M ( i . e . , M A , M B , M C ) M(i.e., M_A,M_B,M_C) M(i.e.,MA,MB,MC)。最终这些map的融合取每个像素点value最高的值(例如 U ( S A , S B ) ∈ ( 0 , 1 ) , U 代 表 融 合 操 作 U(S_A,S_B)\in(0,1),U代表融合操作 U(SA,SB)(0,1),U)。

问题:什么是min-max normalization?
回答:就是常见的归一化,映射到[0,1]之间,具体看下图:
在这里插入图片描述

我们用denseCRF做后处理,denseCRF的一元项是normalized localization maps M ( M A , M B , U ( S A , S B ) 等 等 ) M(M_A,M_B,U(S_A,S_B)等等) M(MA,MB,U(SA,SB))。这些maps只能得到前景的概率,背景的概率由 M b g = ( 1 − M f o r e ) α M_{bg}=(1-M_{fore})^{\alpha} Mbg=(1Mfore)α得出。我们利用normalized saliency score M s a l ∈ ( 0 , 1 ) M_{sal}\in(0,1) Msal(0,1)(由显著性检测的模型得到,如PoolNet)和normalized localization maps M M M去计算 M f o r e ( i , j ) = m a x ( m a x c M i j c , M s a l i j ) M_{fore}(i,j)=max(max_cM_{ijc},M_{sal}^{ij}) Mfore(i,j)=max(maxcMijc,Msalij)

这样我们就得到了背景map M b g M_{bg} Mbg,然后让 M b g , M M_{bg},M Mbg,M作为denseCRF的一元项生成伪掩码就可以了。

功能介绍: 1、集成了春夏秋冬和灰白朦胧,五种风格,用户可以根据自己的审美观随时改变界面色彩; 2、两种首页风格,可以任意选择随时切换; 3、无限分类功能(虽然有此功能,但还是建议您最好是使用二级分类,最多不要超过三级,不然的话,菜单会比较难看; 4、用户注册、用户等级以及自定义权限功能:等级分为:管理员、摄影师、普通会员及游客,后台可以自定义每一组用户的权限; 5、真正的缩略图功能:上传图片的时候,程序将自动生成“小图”(缩略图宽度为170),极大的加快了浏览速度; 6、自定义上传图片的大小,宽度限制; 7、可以随时在线修改上传图片的文件夹,保护自己的图片; 8、图片推荐功能:管理员可以任意推荐自己认为值得推荐的好图片; 9、精华图片功能:管理员可以根据自己的想法,在后台任意设置“精华图片”的分值标准,达到标准的图片将自动成为精华图片,并且自成一个栏目; 10、隐藏图片功能:管理员和被授权的用户可以隐藏自己上传的图片,只有具备相应权限的用户可以观看; 12、图片的防盗链功能:图片不能被别的网站直接链接,可以有效的保护自己的网络资源; 13、图片自动加水印功能:既可以用图片加水印,又可以用文字加水印,而且可以设定水印的位置,自定义是否给整张图片加水印,可以保护您的图片版权,做到万无一失! 14、自定义是否限制右键功能:管理员可以根据自己的需要自由设置是否禁止右键; 15、自定义分类导航功能:自由设置自己喜爱的重点分类在首页显示; 16、后台添加“统计代码”,用户可以到免费计数网站申请计数代码,然后添加到后台的“统计代码”方框,就可以实现统计功能; 17、界面风格模板分离功能:懂程序的管理员可以在线修改自己的界面风格; 18、留言本功能:客人可以给网站的主人填写留言,留言本的色彩搭配可以在后台自定义。 默认的管理员账号和密码都是:netpic
W: An error occurred during the signature verification. The repository is not updated and the previous index files will be used. GPG error: https://ppa.launchpadcontent.net/apt-fast/stable/ubuntu jammy InRelease: Splitting up /var/lib/apt/lists/ppa.launchpadcontent.net_apt-fast_stable_ubuntu_dists_jammy_InRelease into data and signature failed W: GPG error: https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy InRelease: Splitting up /var/lib/apt/lists/partial/mirrors.tuna.tsinghua.edu.cn_ubuntu_dists_jammy_InRelease into data and signature failed E: The repository 'https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy InRelease' is not signed. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details. W: GPG error: https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy-updates InRelease: Splitting up /var/lib/apt/lists/partial/mirrors.tuna.tsinghua.edu.cn_ubuntu_dists_jammy-updates_InRelease into data and signature failed E: The repository 'https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy-updates InRelease' is not signed. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details. W: GPG error: https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy-backports InRelease: Splitting up /var/lib/apt/lists/partial/mirrors.tuna.tsinghua.edu.cn_ubuntu_dists_jammy-backports_InRelease into data and signature failed E: The repository 'https://mirrors.tuna.tsinghua.edu.cn/ubuntu jammy-backports InRelease' is not signed. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details. E: The repository 'http://archive.ubuntu.com/ubuntu trusty Release' does not have a Release file. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details. E: The repository 'https://ppa.launchpadcontent.net/notepadqq-team/notepadqq/ubuntu jammy Release' does not have a Release file. N: Updating from such a repository can't be done securely, and is therefore disabled by default. N: See apt-secure(8) manpage for repository creation and user configuration details.
最新发布
06-10
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值