Self-supervised Augmentation Consistency for Adapting Semantic Segmentation

本文提出了一种简单而精确的无监督域自适应(UDA)方法,名为SAC,用于语义分割。SAC利用标准数据增强和动量网络来确保在变换中的预测一致性,避免了复杂的技术如对抗训练和网络集成。通过多尺度融合、光度噪声和翻转等增强技术,结合focal loss和置信度正则化处理长尾类别,SAC在各种基准上实现了最佳性能,同时减少了额外的训练轮次和计算复杂性。
摘要由CSDN通过智能技术生成

Self-supervised Augmentation Consistency for Adapting Semantic Segmentation

Abstract

目的

  • pratical and highly accurate;实用并且高精度

之前的方法

  • adversarial objectives,
  • networkensembles
  • style transfer

我们的方法

  • 标准的数据增强 – photometric noise, flipping and scaling
  • 并且确保在这些图片变换过程里语义预测的一致性

具体

  • 轻量化的自监督框架: co-evolving pseudo labels without the need for cumbersome extra training rounds.

结果

  • 在不同的骨干网络里,不同的适应场景里,我们的方法都达到了最高的水平

1. Introduction

现状

  • UDA(无监督域自适应)是半监督的变体。现有解决UDA语义分割问题的方法越来越复杂,通常结合风格迁移网络、对抗训练,或网络集成。

动机

  • 模型复杂性的增加阻碍了重现性,潜在地减缓了进一步的进展。我们想不需要大量训练,达到最先进的分割精度

意义

  • 与之前的自训练方法相比,避免了多轮训练带来的不便,因为他们通常需要在连续训练几轮之间进行专家干预。我们使用co-evolving pseudo label 端对端的训练模型。
  • 我们在生成用于自监督的伪标签的上下文里重新讨论了长尾识别问题,降低对与那些较少的类的置信度阈值,并增加它们对训练损失的相对贡献。
  • 我的框架易于训练,与完全监督的设置相比,增加了适度的计算开销,但在已有的基准上设置了新的技术水平。

fig 1

在这里插入图片描述

2. Related Work

总结

  • 语义分割的场景适应的大部分工作都受领域自适应DA和半监督学习的并行工作影响。这些方法背后的主要思想都是使用了HδH-散度来表示目标风险的上界。在下面回顾该思想的变体。

Learning domain-invariant representations.

  • 对抗性特征对齐、特征先验、风格迁移等等方法,为保持源域和目标域的一致性,计算昂贵且训练起来具有挑战性。

Self-training on pseudo labels.

  • 作为计算量更轻的方法,self-training 寻求高质量的伪标签(高置信度的类预测)。我们的工作属于此类

Spatial priors.

  • 与DA分类不同,自适应分割的特点是使用空间先验。局部先验:patch-wise & precomputed super-pixels;全局先验:成功取决于当前基准的语义布局相似性。

Relation to our approach.

  • 如表1,所示,简化了训练流程
    在这里插入图片描述
  • 首先,不使用对抗性训练,特征的不变性无法保证标签的不变性。
  • 第二,我们用 co-evolving 伪标签训练模型 in one round。
  • 其次,我们的框架类似于noisy students,和time ensembling 的一致性正则化方法。相似的方法已经在医疗影像、UDA领域使用了。

3. Self-Supervised Augmentation Consistency

Fig 2

3.1. Framework overview

  • 如图fig.2a,我们的框架由一个分割网络和动量网络构成。我们首先从目标域的样本图像向两个网络提供一批随机裁剪和水平翻转。对于每个像素,经过适当的逆空间变换后,我们对动量网络的预测(即语义掩码)进行平均。然后通过运行统计阈值(能适应单个样本)从平均中选择高置信的像素创建伪标签。最后通过随机梯度下降更新器参数。

  • 我们的方法类似于 Mean Teacher 和 temporal ensembling。我们的动量网络为分割网络的自监督训练提供了稳定的目标

3.2. Batch construction

  • 对于采样的目标图像,我们生成具有随机比例、翻转和为位置的N个裁剪,但固定纵横比。固定输入分辨率 h * w 。如Fig. 2b所示。值得注意的是:根据噪声学生模型,分割网络多了光度增强(随机颜色扰动、随机高斯平滑)。而动量网络则没有,这是为了鼓励模型对光度扰动保持不变

3.3. Self-supervision

  • Multi-scale fusion.

    • 如Fig. 2c. 所示,将,动量网络的masks重新投影回原始图像。对每个像素,重叠区域对其预测值进行平均。然后,将合并后的地图用于提取伪掩码以进行自我监督。
  • A short long-tail interlude.

    • 处理少量的类别。
    1. 降低选择伪标签的阈值
    2. 增加对focal loss梯度的贡献
    3. 采用重要性抽样
      后两个都是减少多样本的权重,相对的增加少样本的权重
  • Sample-based moving threshold.

    • 与之前的需要中断重新计算阈值生成伪标签的工作不同。我们主要使用了exponentially moving class prior,在进行中计算阈值
  • Fig 3.
    在这里插入图片描述

    • 对于长尾类别,使其阈值降低
  • Focal loss with confidence regularisation.

    • 结合local loss ,并对mask添加正则项,增加长尾类别对损失的贡献

3.4. Training

  • Pre-training with source-only loss.

    • Adaptive Batch Normalisation (ABN) 。在预训练中,我们交替使用源图像和目标图像,但忽略了后者的损失。对于目标批次,这意味着更新批次归一化(BN)层中的运行平均值和标准偏差,并保持其余模型参数不变。(baseline)
  • Importance sampling.

    • 为了缓解这种不平衡,我们使用重要性抽样[21]并增加这些长尾类的抽样频率。在训练时,进行均匀采样。
  • Joint target-source training.

    • 源域使用交叉熵损失,目标域使用focal loss。动量网络, γ ψ γ_ψ γψ较低的值会导致训练速度较快但不稳定,而较高的 γ ψ γ_ψ γψ会导致过早收敛和次优收敛。我们让 γ ψ γ_ψ γψ保持温和,但只在每一次迭代中更新动量网络。
  • Fig 4.

    在这里插入图片描述

4. Experiments

Datasets

  • Cityscapes, GTA5, SYNTHIA

Setup.

  • GTA5 和 SYNTHIA 作为源域, cityscapes 作为目标域(忽略可用的语义标签)。训练的时候只用cityscapes分割的训练集、在验证集上报告结果。指标mIoU

4.1. Implementation details

  • 采用DeepLabv2作为分割网络,并在另外两个主干上评估:ResNet-101 和 VGG16。
    模型在ImageNet上预训练。
    通过SyncBN实现ABN,多尺度缩放剪切大小为640*,并且batchsize=16.
    接下来,使用taget loss训练,并冻结BN层。
    batch:8源域,8目标域,1024*512。

4.2. Comparison to state of the art

在这里插入图片描述

  • 我们的方法,被称为SAC(“自我监督增强一致性”),大大超过了我们的基准(即,ABN的纯来源损失模型)。以往作品的排名取决于主干选择和源数据,但我们在所有设置下都始终达到最高排名。分别提升了3.4,1.2%,相比之前更复杂的、需要多轮训练的模型模型。SA-I2I[55]从一个更强的基线BDL[46]开始初始化,并依赖于风格转移网络和对抗性训练

4.3. Ablation study

在这里插入图片描述

  • 增强一致性包括三种增强技术:光度学噪声、多尺度融合和随机翻转。
  • 禁用动量网络会导致IOU减少6.4%,动量网络增加了34%的运算。
  • 通过数据增强对预测进行平均可以产生校准良好的不确定性估计。
  • 无焦点项(λ=0)和置信度正则化的IOU分别为2.4%和1.6%。这是一个令人惊讶的重大贡献,计算成本可以忽略不计。

5. Conclusion

  • 提出了一种简单、准确的语义分词领域自适应方法。使用普通的增强技术和动量更新,我们实现了最先进的准确性,但不牺牲适度的训练或模型复杂性。
  • 虽然这项工作的重点是语义分割,但我们热衷于探索所提出的技术的潜力,以适应其他密集预测任务,如光流、单目深度、全景和实例分割,甚至这些多个任务的组合。

遇到的问题

  • 半监督和自监督区别
  • 一致性正则化
  • 自训练,EMA
  • 无监督自适应域(UDA)
  • style transfer networks, adversarial training or network ensembles
  • ABN、SyncBN
  • focal loss
  • importance sampling
  • adaptive batch normalization
  • deeplab

收获

  • 增强一致性:光抖动、多尺度融合、水平翻转
  • 动量网络
  • 针对长尾问题:focal loss with confidence regularisation,moving threshold ,importance sampling

下一步

  • 实验部分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值