论文阅读笔记:Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation

论文:https://arxiv.org/pdf/2208.09910v2.pdf

代码:https://github.com/LiheYoung/UniMatch

1 背景

本文关注由弱到强的一致性正则化框架,该框架由FixMatch从半监督分类领域推广,然后影响许多其他相关任务。弱到强的方法监督一个强扰动的未标记图像 x s x^s xs,其预测结果对应弱扰动版本 x w x^w xw 的预测结果,如图2a所示。直觉上,它的成功在于模型更有可能对 x w x^w xw 产生高质量的预测,使得 x s x^s xs 对模型学习更有效,因为强扰动引入了额外的信息,减轻了确认偏差。只要加上适当的强扰动,FixMatch仍然可以表现出强大的泛化能力,获得优于最先进的( SOTA )方法的结果,如图1所示。因此,作者选择这个简单而有效的框架作为基线。
在这里插入图片描述在这里插入图片描述

如表1所示,是否采用扰动的性能差距非常大,收到这些线索的启发,作者希望集成fixmatch强扰动思想的同时,也能从两个不同的视角进一步强化他,即拓展更广阔的扰动空间以及充分捕获原始扰动。
在这里插入图片描述
尽管这些扰动是有效的,但他们完全被限制在了图像层面,阻碍了模型探索更广阔的扰动空间,并在不同层面保持一致性。为了扩展原始扰动空间,作者对原始图像和提取的特征都设计了一个统一的框架。具体的,在原始图像上,类似于FixMatch,应用预定义的图像级强扰动,而对图像特征提取时的弱扰动,作者使用一个十分简单的通道dropout。通过这种方式,模型在图像和嵌入层面上追求对未标注图像预测的等价性。

另一方面,目前的FixMatch框架仅利用了小批量中每个未标记图像的单个强视图,不足以充分挖掘手动预定义的扰动空间。考虑到这一点,作者提出了一种简单但高效的输入改进,即从扰动池中随机采样两个独立的强视图。然后将它们并行输入到学生模型中,并且同时受到弱视图的监督。这种微小的修改使得FixMatch基线本身变成了一个更强的SOTA框架。直接上,作者猜想强制两个强视图靠近一个共同的弱视图可以看做最小化这些强视图之间的距离。

2 创新点

  1. 在FixMatch的基础上,提出了一个统一的扰动框架,将图像级和特征级的扰动统一在独立的流中,以利用更广泛的扰动空间。

  2. 设计了一种双流扰动策略,以充分探测预定义的图像级扰动空间,并利用对比学习的优点来获得判别性表示。

3 方法

在这里插入图片描述
应用预定义的图像级强扰动的基础上对弱扰动图像进行特征级的扰动,即使用一个十分简单的通道dropout。同时从扰动池中随机采样两个独立的强视图。然后将它们并行输入到学生模型中,并且同时受到弱视图的监督。

4 模块

4.1 预备知识

如前所述,FixMatch利用弱到强的一致性正则化来利用未标注数据。具体来说 ,每个未标注图像 x u x^u xu 同时收到两个算子的扰动,即弱扰动 A w A^w Aw(如剪切)和强扰动 A s A^s As(如颜色抖动)。然后总体目标函数是有监督损失 L s L_s Ls 和无监督损失 L u L_u Lu 的组合:
在这里插入图片描述
通常,监督项 L s L_s Ls 是模型预测与真实标签之间的交叉熵损失。并且无监督损失 L u L_u Lu 将样本在强扰动下的预测正则化为雨弱扰动下相同,可以表示为:
在这里插入图片描述
其中 B u B_u Bu 是未标注数据的批次大小, τ \tau τ 是一个预定义的置信度阈值。 H H H 最小化两个概率分布之间的熵:
在这里插入图片描述
其中教师模型 F ^ \hat{F} F^ 在弱扰动图像上产生伪标签,而学生模型 F F F 利用强扰动图像进行模型优化。在本项工作中,为了简单起见,作者设定 F ^ \hat{F} F^ F F F 完全相同。

4.2 图像和特征的统一扰动

除了半监督分类,FinxMatch中的方法在语义分割,目标检测等方向也取得了成功。虽然如此,但它的有效性十几上严重依赖于研究人员设计的强扰动,其最优组合和超参数的获取非常耗时。此外,在某些情况下,例如医学图像分析等,可能需要特定领域的知识找出效果最好的一组扰动和超参。更重要的是,他们在图像层面被完全约束,阻碍了学生模型在面对更多样的扰动时保持多层次的一致性。

为此,为了构造更广阔的扰动空间,在FixMatch的基础上,作者提出了对弱扰动图像 x w x^w xw 的特征进行扰动。选择将不同水平的扰动分离成多个独立的前馈流,使学生能够直接地在每个流中实现目标一致性。形式上,分割模型 f f f 可以分解为编码器 g g g 和解码器 h h h。除了在FixMatch中获得 p w p^w pw p s p^s ps 外,作者还从一个辅助特征扰动流中获得 p f p p^{fp} pfp
在这里插入图片描述
其中 e w e^w ew x w x^w xw 提取的特征, P P P 表示特征扰动,例如 dropout 或者加入均匀噪声。
在这里插入图片描述
总体而言,如图3a所示。每个未标记小批次保持3个前馈流:

(i)最简单的流: x w → f → p w x^w→f→p^w xwfpw

(ii)图像级扰动的流: x s → f → p s x^s→f→p^s xsfps

(iii)引入的特征扰动的流: x w → g → P → h → p f p x^w→g→P→h→p^{fp} xwgPhpfp

通过这种方式,学生模型被强制在图像和特征级别上与统一的扰动一致,作者将其命名为 U n i P e r b UniPerb UniPerb。无监督损失 L u L_u Lu 表示为:
在这里插入图片描述
作者发现只需要一个简单的通道dropout(即PyTorch中的nn.Dropout2)就可以达到足够好的效果。

4.3 双流扰动

最近自监督和半监督分类方面工作证明,为未标注数据构造多个视图作为输入可以更好的利用扰动。受此启发,作者想尝试能否半监督语义分割也可以收益。作者做了一个直截了当的尝试,即通过强扰动库 A s A^s As x w x^w xw 中独立产生双流扰动 ( x s 1 , x s 2 ) (x^{s_1},x^{s_2}) (xs1,xs2),而不是想模型中输入单个 p s p^s ps。由于 A s A^s As 是预先定义但非确定的,因此 ( x s 1 , x s 2 ) (x^{s_1},x^{s_2}) (xs1,xs2) 不相等,这种双流扰动框架(DusPerb)如图3b所示。

作者猜想,用一个共同的弱视图来规则化两个强视图,也可以看作加强这两个强视图之间的一致性。直观地,假设 k w k_w kw x w x^w xw 预测的类别的分类器权重,而 ( q s 1 , q s 2 ) (q_{s_1}, q_{s_2}) (qs1,qs2) 是图像 ( x s 1 , x s 2 ) (x_{s_1},x_{s_2}) (xs1,xs2) 的特征,那么在交叉熵损失中,相对于 KaTeX parse error: Undefined control sequence: \* at position 16: \sum_{i=0}^Cq_j\̲*̲k_i 最大化 KaTeX parse error: Undefined control sequence: \* at position 4: q_j\̲*̲k_w ,其中 j ∈ { s 1 , s 2 } j∈\{s_1,s_2\} j{s1,s2} k i k_i ki 是第 i i i 个类别的分类器权重。因此可以认为也在最大化 q s 1 q_{s_1} qs1 q s 2 q_{s_2} qs2 的相似性。因此 InfoNCE 损失满足:
在这里插入图片描述
其中 q s 1 q_{s_1} qs1 q s 2 q_{s_2} qs2 为正样本对,而除 k w k_w kw 外的其他分类器权重均为负样本。

L s 1 ↔ s 2 L_{s_1↔s_2} Ls1s2的目的是增加 KaTeX parse error: Undefined control sequence: \* at position 12: exp(q_{s_1}\̲*̲q_{s_2}),进而增加了 q s 1 q_{s_1} qs1 q s 2 q_{s_2} qs2 的相似性。同时减小 KaTeX parse error: Undefined control sequence: \* at position 8: exp(q_j\̲*̲k_i),进而降低了当前类别和其他类别特征的相似性。

4.4 整体框架UniMatch

本文提出两种利用无标签图像的关键技术,即UniPerb和DusPerb。将两种方法整合到整体框架UniMatch中,如图2b所示。

算法1给出了相应的伪代码。
在这里插入图片描述
与FixMatch相比,本文方法保留了两个辅助前馈流,一个用于扰动 x w x^w xw 的特征,另一个用于 ( x s 1 , x s 2 ) (x^{s_1},x^{s_2}) (xs1,xs2) 多视角学习。最终的无监督损失为:
在这里插入图片描述
阐明了特征级和图像级扰动流具有各自的性质和优势,同时权重 λ \lambda λ μ \mu μ 均设置为0.5, H H H 则表示交叉熵损失,置信度阈值 τ \tau τ 在所有数据集上设置为0.95,但Cityscapes上设置为0。

5 效果

5.1 与SOTA方法对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

和baseline FixMatch对比的效果。
在这里插入图片描述
在这里插入图片描述

5.2 消融实验

UniPerb和DusPerb模块的消融实验。
在这里插入图片描述
多样性扰动的消融实验。对比盲目的增加视图而没有特征扰动。
在这里插入图片描述
因为每个无标签图像都强扰动两次,相当于无标签数量增加了一倍,因此作者通过增加batchsize和epoch的消融实验来证明双流扰动的有效性。
在这里插入图片描述
为了验证图像级扰动和特征级扰动分离成独立流的必要性,作者在强扰动的图像特征中注入dropout形成混合视图,发现效果反而下降了。
在这里插入图片描述
作者还尝试了增加图像和特征集扰动流的数量,发现,增加扰动流并不一定带来更高的性能。
在这里插入图片描述
除了通道dropout以外,还有均匀噪声和虚拟对抗训练(VAT)等特征扰动的选择,通过消融实验,发现还是通道dropout效果最好。
在这里插入图片描述
置信度阈值 τ \tau τ 的消融实验,测试下来0.95在Pascal数据集上效果最好。
在这里插入图片描述
加入特征扰动的位置的消融实验。将扰动增加到编码器和解码器的交叉点效果最好。
在这里插入图片描述
将UniMatch迁移到遥感解译领域上,重新设计了框架如图6。
在这里插入图片描述
遥感解译领域的效果。
在这里插入图片描述
将UniMatch迁移到医学图像分析上的效果。
在这里插入图片描述

  • 26
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值