Self-supervised Augmentation Consistency for Adapting Semantic Segmentation

最新推荐文章于 2022-11-01 12:02:28 发布

Stdleohao

最新推荐文章于 2022-11-01 12:02:28 发布

阅读量331

点赞数

分类专栏： semantic segmentation 文章标签：计算机视觉 UDA

本文链接：https://blog.csdn.net/stdleohao/article/details/124387078

版权

semantic segmentation 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Self-supervised Augmentation Consistency for Adapting Semantic Segmentation

Abstract

为什么

pratical and highly accurate；实用并且高精度

之前的方法

adversarial objectives, network
ensembles and style transfer

我们的方法

标准的数据增强 – photometric noise, flipping and scaling
并且确保在这些图片变换过程里语义预测的一致性

具体

轻量化的自监督框架： co-evolving pseudo labels without the need for
cumbersome extra training rounds.

结果

在不同的骨干网络里，不同的适应场景里，我们的方法都达到了最高的水平

1. Introduction

现状

UDA（无监督域自适应）是半监督的变体。现有解决UDA语义分割问题的方法越来越复杂，通常结合风格迁移网络、对抗训练，或网络集成。

动机

模型复杂性的增加阻碍了重现性，潜在地减缓了进一步的进展。我们想不需要大量训练，达到最先进的分割精度

意义

与之前的自训练方法相比，避免了多轮训练带来的不便，因为他们通常需要在连续训练几轮之间进行专家干预。我们使用co-evolving pseudo label 端对端的训练模型。
我们在生成用于自监督的伪标签的上下文里重新讨论了长尾识别问题，降低对与那些较少的类的置信度阈值，并增加它们对训练损失的相对贡献。
我的框架易于训练，与完全监督的设置相比，增加了适度的计算开销，但在已有的基准上设置了新的技术水平。

fig 1

在这里插入图片描述

2. Related Work

总结

语义分割的场景适应的大部分工作都受领域自适应DA和半监督学习的并行工作影响。这些方法背后的主要思想都是使用了HδH-散度来表示目标风险的上界。在下面回顾该思想的变体。

Learning domain-invariant representations.

对抗性特征对齐、特征先验、风格迁移等等方法，为保持源域和目标域的一致性，计算昂贵且训练起来具有挑战性。

Self-training on pseudo labels.

作为计算量更轻的方法，self-training 寻求高质量的伪标签（高置信度的类预测）。我们的工作属于此类

Spatial priors.

与DA分类不同，自适应分割的特点是使用空间先验。局部先验：patch-wise & precomputed super-pixels；全局先验：成功取决于当前基准的语义布局相似性。

Relation to our approach.

如表1，所示，简化了训练流程
首先，不使用对抗性训练，特征的不变性无法保证标签的不变性。
第二，我们用 co-evolving 伪标签训练模型 in one round。
其次，我们的框架类似于noisy students，和time ensembling 的一致性正则化方法。
相似的方法已经在医疗影像、UDA领域使用了。

3. Self-Supervised Augmentation Consistency

Fig 2

在这里插入图片描述

3.1. Framework overview

如图fig.2a，我们的框架由一个分割网络和动量网络构成。我们首先从目标域的样本图像向两个网络提供一批随机裁剪和水平翻转。对于每个像素，经过适当的逆空间变换后，我们对动量网络的预测(即语义掩码)进行平均。然后通过运行统计阈值（能适应单个样本）从平均中选择高置信的像素创建伪标签。最后通过随机梯度下降更新器参数。

我们的方法类似于 Mean Teacher 和 temporal ensembling。我们的动量网络为分割网络的自监督训练提供了稳定的目标

3.2. Batch construction

对于采样的目标图像，我们生成具有随机比例、翻转和为位置的N个裁剪，但固定纵横比。固定输入分辨率 h * w 。如Fig. 2b所示。值得注意的是：根据噪声学生模型，分割网络多了光度增强（随机颜色扰动、随机高斯平滑）。而动量网络则没有，这是为了鼓励模型对光度扰动保持不变

3.3. Self-supervision

Multi-scale fusion.
- 如Fig. 2c. 所示，将，动量网络的masks重新投影回原始图像。对每个像素，重叠区域对其预测值进行平均。然后，将合并后的地图用于提取伪掩码以进行自我监督。
A short long-tail interlude.
- 处理少量的类别。

降低选择伪标签的阈值
增加对focal loss梯度的贡献
采用重要性抽样
后两个都是减少多样本的权重，相对的增加少样本的权重

Sample-based moving threshold.
- 与之前的需要中断重新计算阈值生成伪标签的工作不同。我们主要使用了exponentially moving class prior，在进行中计算阈值
Fig 3.
- 对于长尾类别，使其阈值降低
Focal loss with confidence regularisation.
- 结合local loss 增加长尾类别对损失的贡献

3.4. Training

Pre-training with source-only loss.
- Adaptive Batch Normalisation (ABN) 。在预训练中，我们交替使用源图像和目标图像，但忽略了后者的损失。对于目标批次，这意味着更新批次归一化(BN)层中的运行平均值和标准偏差，并保持其余模型参数不变。
Importance sampling.
- 为了缓解这种不平衡，我们使用重要性抽样[21]并增加这些长尾类的抽样频率。在训练时，进行均匀采样。
Joint target-source training.
- 源域使用交叉熵损失，目标域使用focal loss。动量网络， $γ_ψ$ 较低的值会导致训练速度较快但不稳定，而较高的 $γ_ψ$ 会导致过早收敛和次优收敛。我们让 $γ_ψ$ 保持温和，但只在每一次迭代中更新动量网络。
Fig 4.
- 例子

4. Experiments

Datasets

Cityscapes, GTA5, SYNTHIA

Setup.

GTA5 和 SYNTHIA 作为源域， cityscapes 作为目标域（忽略可用的语义标签）。训练的时候只用cityscapes分割的训练集、在验证集上报告结果。指标mIoU

4.1. Implementation details

采用DeepLabv2作为分割网络，并在另外两个主干上评估：ResNet-101 和 VGG16。
模型在ImageNet上预训练。
通过SyncBN实现ABN，多尺度缩放剪切大小为640*，并且batchsize=16.
接下来，使用taget loss训练，并冻结BN层。
batch：8源域，8目标域，1024*512。

4.2. Comparison to state of the art

我们的方法，被称为SAC(“自我监督增强一致性”)，大大超过了我们的基准(即，ABN的纯来源损失模型）。以往作品的排名取决于主干选择和源数据，但我们在所有设置下都始终达到最高排名。分别提升了3.4,1.2%，相比之前更复杂的、需要多轮训练的模型模型。SA-I2I[55]从一个更强的基线BDL[46]开始初始化，并依赖于风格转移网络和对抗性训练

4.3. Ablation study

增强一致性包括三种增强技术：光度学噪声、多尺度融合和随机翻转。禁用动量网络会导致IOU减少6.4%，动量网络增加了34%的运算。通过数据增强对预测进行平均可以产生校准良好的不确定性估计。无焦点项(λ=0)和置信度正则化的IOU分别为2.4%和1.6%。这是一个令人惊讶的重大贡献，计算成本可以忽略不计。