【论文阅读】基于可信赖渐进学习的双学生鲁棒弱监督语义分割

DuPL: Dual Student with Trustworthy Progressive Learning for Robust Weakly Supervised Semantic Segmentation


具有图像级标签的单阶段弱监督语义分割(WSSS)因其简化了其繁琐的多阶段语义分割而获得了越来越多的关注

类激活图(Class Activation Map, CAM)固有的模糊性,我们观察到一级管道经常会遇到由错误的CAM伪标签引起的确认偏差,从而影响其最终的分割性能
  
我们提出了一个具有可信赖渐进式学习(DuPL)的双学生框架

以便为每个子网产生不同的cam

两个子网相互监督,减轻了由于学习自己不正确的伪标签而造成的确认偏差
  

逐步引入更多可信的伪标签参与监督。此外,我们认为每个像素,甚至由于其不可靠而被从监督中丢弃,对于WSSS都是重要的

对这些丢弃的区域进行一致性正则化,提供对每个像素的监督

  

在PASCAL VOC 2012和MS COCO数据集上

  

一、介绍

  
弱监督语义分割(WSSS)旨在使用弱监督,如图像级标签,涂鸦和边界框,以减轻对像素级注释的依赖。

流行的作品通常遵循一个多阶段的流水线,即伪标签生成、细化和分割训练。

  

训练一个细化网络来对它们进行细化。最后,使用改进的伪标签以完全监督的方式训练分割模型。

为了简化多阶段过程,许多研究提出了同时产生伪标签和学习分割头的单阶段解决方案。
  

训练效率提高了,但表现仍然落后于多阶段的同行

CAM伪标签生成和分割监督同时进行,导致了CAM的确认偏差
  

对于单阶段管道,分割训练强制骨干特征与CAM伪标签对齐

分词头和CAM生成的主干特征是共享
  

  • 不准确的CAM伪标签不仅阻碍了分割的学习过程
  • 更严重的是强化了CAM的错误判断
      

最近的一阶段方法通常设置一个固定的高阈值来过滤不可靠的伪标签

这种策略未能充分利用对其模型的监督,固定的高阈值不可避免地会丢弃许多实际上具有正确CAM伪标签的像素

从监督中丢弃的不可靠区域往往存在于语义模糊的区域中

  

认为每个像素对分割都很重要,应该得到适当的利用

提出了一个具有可信赖渐进式学习的双学生框架,称为DuPL
  

具体操作:

  • 在两个子网上施加了表示级差异约束。

  • 建立了一种动态阈值调整策略,使更多的像素参与到分割监督中

  • 克服CAM伪标签中的噪声,提出了一种基于高斯混合模型的自适应噪声滤波策略
      

  • 单阶段WSSS中探讨CAM确认偏差中探讨CAM确认偏差。为了解决这个限制,我们提出了一个双学生架构

  • 提出了带自适应噪声滤波的渐进式学习

  • 开发了一致性正则化以获得足够的训练

  • 在PASCAL VOC和MS COCO数据集上的实验表明,DuPL超越了最先进的单阶段WSSS竞争对手

  

二、联系工作

  

2.1 单阶段弱监督语义分割

常见的一种单阶段管道是生成CAM并使用在线细化模块获得最终伪标签

伪标签然后直接用作分割头的监督

Xu等人利用特征对应实现自蒸馏。

  

常见做法是都设置了一个高而固定的门槛,以过滤掉不可靠的伪标签

  

2.2 确认偏误

这种现象通常发生在半监督学习(SSL)的自我训练范式

模型过度拟合分配了错误伪标签的未标记图像

错误信息不断被强化,导致训练过程不稳定
  

在上述过程中,这些错误信息不断被强化,导致训练过程不稳定

它使用两个不同的子网提供相互监督,以确保更稳定和准确的预测,同时减轻确认偏差

我们提出了一种具有表征级差异损失的双学生架构,以生成不同的cam

  

两个子网通过对方的伪标签相互学习,抵消了CAM确认偏差,实现了更好的对象激活

据我们所知,DuPL是第一个在单阶段WSSS中探索CAM确认偏差的工作

  

2.3 WSSS中的噪声标签学习

除了更好的CAM伪标签生成之外,一些工作旨在使用现有的伪标签学习稳健的分割模型

URN引入了不同视图之间逐像素方差的不确定性估计来过滤噪声标签

ADELE基于早期学习和记忆现象

  

与这些作品依赖于其他作品已有的CAM伪标签不同,一期法的伪标签在训练中不断更新

为了减轻渐进式学习中的噪声伪标签

设计了一种基于分割头损失反馈的在线自适应噪声滤波策略
  

三、方法

  

3.1 框架结构

在这里插入图片描述

首先简要回顾一下如何生成CAM及其伪标签

  • 通过骨干网络提取其特征映射F∈R D×H×W
  • 其中D为通道维数,H×W为空间维数
  • 将F输入到全局平均池化和分类层

  

输出最终的分类分数

可以检索每个类W∈RC×D的分类权值,用它对特征映射进行加权和,生成CAM

  
在这里插入图片描述

其中c是第c类,ReLU用于消除负激活

应用max-min归一化将M∈R C×H×W重新缩放为[0,1]
  

单阶段WSSS方法通常使用两个背景阈值τl和τh分离

  • 背景(M≤τl)
  • 不确定区域(τl < M < τh)
  • 前景(M≥τh)
      

提出了一种基于共同训练的双学生网络,其中两个子网(即ψ1和ψ2)具有相同的网络结构,它们的参数独立更新且不共享

为了确保两个子网激活CAM中更多不同的区域,

我们对从ψf提取的它们的表示强制足够的多样性
  
防止两个子网同质,这样一个子网可以从另一个子网学习知识,以减轻CAM的确认偏差

设置了一个差异约束来最小化两个子网的特征映射之间的余弦相似度

在这里插入图片描述

∆为停止梯度操作,以避免模型崩溃
  

相应理解:

  • 双生分割监督是双向的
  • 一个是从M1到ψ2,另一个是从M2到ψ1
  • 来自M1的CAM伪标签Y1用于监督来自其他子网的分段头ψs的预测映射P2

  

分割损失计算为:

在这里插入图片描述

  

3.2 可信渐进学习

动态阈值调整

设置背景阈值τl和τh来生成伪标签,其中τh通常设置为很高的值

以确保只有可靠的前景伪标签才能参与监督
  

在双生框架的训练过程中,CAMs逐渐趋于可靠

每次迭代中使用余弦下降策略调整背景阈值τh:

在这里插入图片描述

其中t为当前迭代次数,t为总训练迭代次数
  

自适应噪声滤波

为了进一步降低产生的伪标签中影响分割泛化性和强化CAM确认偏差的噪声

开发了一种自适应噪声滤波策略来实现可信的渐进学习

深度网络倾向于比有噪声的网络更快地拟合干净标签

  

模型过拟合噪声标签之前,损失较小的样本更有可能被认为是干净的样本

一个预定义的阈值,根据它们的训练损失来划分干净和有噪声的伪标签

没有考虑到模型的损失分布在不同的样本中是不同的

  

开发了一种自适应噪声滤波策略

在这里插入图片描述

  

通过损失分布来区分噪声和干净的伪标签

具有分割映射P和CAM伪标签Y的输入图像X,

  

假设每个像素X∈X的损失定义为l X = CE (P (X), Y (X))

从高斯混合模型(GMM) P(X)中对所有具有两个分量的像素(即clean c和noisy n)进行采样

在这里插入图片描述

  

两个伪标签上的损耗分布出现两个峰,损耗异常的红色峰主要是由噪声引起的。

Mi为掩码,表示第i个子网络中带有不可靠伪标签的滤波像素
  

Lreg = Lreg 1 +Lreg 2。这种损失是为每个图像计算的,总损失是所有图像的平均值

在这里插入图片描述

  

四、实验

在两个标准的WSSS数据集(即PASCAL VOC 2012和MS COCO 2014数据集)上评估了所提出的DuPL
  

按照惯例使用SBD数据集进行扩展。

训练、val和测试集分别由10582、1449和1456张图像组成

  

DuPL的网络架构。我们使用带有轻量级分类器和分割头的vitb - b[12],以及patch令牌对比度损失[40]作为我们的基线网络

  

分类器是一个全连接层。分割头由两个3×3卷积层(膨胀率为5)和一个1 × 1的预测层组成

DuPL由两个具有基线设置的子网组成,其中主干使用ImageNet预训练的权重初始化

  

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值