分享一篇2024年半监督语义分割的文章。
概要
在半监督语义分割中,采用基于平均教师和协同训练的方法来减轻确认偏差和耦合问题。 然而,尽管它们具有高性能,但这些方法经常涉及复杂的训练管道和大量的计算负担,限制了这些方法的可扩展性和兼容性。 在该文中提出的 PrevMatch 框架,该框架通过最大限度地利用训练过程中获得的时间知识来有效缓解上述限制。其依赖于两个核心策略:(1)重新考虑时间知识的使用,从而直接利用训练期间获得的先前模型来生成额外的伪标签指导,称为先前指导。 (2)设计了一个高度随机的集成策略,以最大限度地提高先前指导的有效性。
这篇文章对于半监督学习的介绍比较全面:
首先,自训练和一致性正则化,自训练涉及在每次迭代时使用当前模型的预测来生成未标记样本的伪标签,并利用它们与标记数据结合训练模型。 一致性正则化鼓励网络对相同输入的各种扰动形式进行一致的预测。最近的研究重点是设计结合自我训练和一致性正则化的框架,以利用每种方法的优势。 然而,即使与一致性正则化相结合,基于自训练的方法仍然面临确认偏差问题,该问题归因于模型本身产生的伪标签错误的累积,并且随着自我训练的进展而加剧。
为了缓解该问题,现有方法区分了监督输出和伪标签的模型预测过程。也就是监督输出和伪标签分别是从不同的预测中获得的。通常利用弱扰动生成的伪标签来监督强扰动输入的预测,它的成功基于这样的想法:更可靠的伪标签可以从弱扰动中导出,而强扰动有助于减轻确认偏差,拓宽知识和未标记数据空间,并将模型的决策边界转移到低密度区域。 由于这一优势,弱到强一致性范式已成为最新方法的基本组成部分。比如FixMatch和UniMatch等…
教师学生模型,模型架构相同,但参数不同,其中使用学生模型权重的指数移动平均值(EMA)导出教师网络,尽管两个网络之间产生不同的预测视图,但该方法收到耦合问题的限制,随着训练的进行,教师和学生变得紧密相连,因此,教师的预测变得与学生的预测相似。由此一些研究做出了改进,提出基于双EMA教师的框架,其中每个时期都有两名教师交替更新(图 1d)。其中,PS-MT通过整合两位老师的预测来产生更可靠的伪标签。 集成预测可以减少伪标签的多样性。 因此,他们提出了一个双教师框架,在每个时期交替激活两名教师以生成多样化的伪标签。 尽管这些研究已经证明了使用多名教师来减轻耦合问题的好处,但他们同时提供可靠且多样化的伪标签的能力仍然有限。 此外,他们还纳入了额外的复杂组件,以确保两位教师之间的多样性。 特别是,PS-MT 使用了对抗性特征扰动和新的损失函数。 此外,为每位教师提供不同类型的增强(例如,CutMix 或 ClassMix)和层扰动用于双教师。 因此,这种复杂性可能会阻碍这些方法与现有半监督方法的可扩展性和兼容性。
协同训练范式已被广泛用于扩展预测视图,而不是使用基于EMA的教师(图1c)。 该范例涉及以相互教学的方式同时训练具有不同初始化的多个网络,其中每个网络使用根据其预测生成的伪标签来监督其他网络。 基于这个概念,后续研究证明,增加学生网络伪标签视图的多样性可以提高其泛化能力。 例如,这可能涉及使用更多的协同网络、不同的输入域(例如 RGB 和频率)或不同的架构(例如 CNN 和 Transformer)。 协同训练提供了多样化的伪标签指导,具有稳定性,并且无需担心耦合问题。 然而,由于计算复杂性和资源需求,其可扩展性仍然受到限制。
该文提出的PrevMatch 框架,该框架通过最大限度地利用训练期间获得的先前模型来有效地扩展伪标签视图,如图 1e 所示。 PrevMatch 框架基于两个主要思想。 首先,为了有效解决耦合问题,我们重新审视时态知识的利用。 具体来说,我们在训练期间保存特定时期的多个模型,并利用它们的预测作为附加指导,称为先前指导,它与标准指导一起充当正则化器。 该策略解决了耦合问题并降低了与附加训练组件相关的复杂性。 其次,我们设计了一种高度随机的集成策略,以最大限度地提高利用先前指导的有效性。 这种方法涉及从之前保存的模型中选择随机数量的模型,并使用随机权重来整合它们的预测。 该策略可以有效地提供多样化且可靠的伪标签,同时避免协同训练方法中固有的显着计算复杂性。
创新一:Temporal Knowledge in Semi-supervised Learning
挑战:
早期研究采用 GAN 框架通过区分伪标签和手动标签来为未标记图像生成额外的监督。 最近的研究重点是开发基于弱到强一致性、Mean Teacher 和协同训练范式的改进方法。 PseudoSeg采用基于单个网络的从弱到强的范式。 CPS 和 GCT 采用两个网络进行协同训练,并证明协同训练优于 Mean Teacher 方法。 随后的研究将弱到强范式(即输入扰动)集成到平均教师或协同训练方法(即网络扰动)中,证明了性能的提高。
PS-MT和双教师方法实现了基于双EMA教师的框架,以减轻教师和学生模型之间的耦合问题,两名教师根据学生的EMA交替更新每个时期权重。 然而,它们的管道不可避免地涉及复杂的组件来解决耦合问题,限制了这些方法的可扩展性和兼容性。 此外,在伪标签生成方面,PS-MT 集成了两位教师的预测以提高可靠性,而双教师交替使用每位教师的预测以增强多样性。 然而,这两种方法都不能同时满足可靠性和多样性。 换句话说,PS-MT 提高了伪标签的可靠性,但缺乏多样性,而 Dual Teacher 则存在相反的限制。
解决:
在这项研究中,没有使用平均教师或协同训练方法,而是重新审视时间知识的利用,并通过最大限度地利用以前的模型来有效地扩展伪标签视图。 所提出的 PrevMatch 框架消除了复杂组件,例如每个时期的不同增强类型、层/对抗性特征扰动、EMA 教师和新的损失函数。 相反,PrevMatch 重用了之前的模型和标准流程中使用的弱扰动输入,从而提高了整体框架的简单性和兼容性。 此外,我们通过高度随机的集成策略为学生网络提供可靠且多样化的伪标签。 此外,尽管 PrevMatch 和协同训练都提供了不同的伪标签视图,但 PrevMatch 在具有固定先前模型的单个可训练网络上运行。 这有助于提高计算和内存成本方面的效率。
UniMatch框架在FixMatch的基础上引入了两个贡献:双流图像级扰动和特征级扰动策略,以扩展扰动空间,从而实现显着改进。 该文选择 UniMatch 框架作为基准。 通过对同一图像 xu 随机应用强增强池来导出两个强扰动图像(xs1 和 xs2 )。 随后,通过网络f生成它们相应的预测(ps1和ps2)。 对于特征级扰动策略,预测得到如下:
其中g和h分别是整个网络f的编码器和解码器。
最终,三个预测同时受到从弱视图派生的公共伪标签的监督(图 2 中的红色箭头)。表述如下。
无监督 - 建议流:为了获得额外的伪标签指导,将标准分支中使用的相同弱扰动图像 xw 馈送到先前的模型分支中。 随后,从保存的先前模型列表中选择 k 个模型,其中 k 是从 {1, 2, …,K} 中随机选择的,并生成 xw 的 k 个预测。 先前的指导 pw’ 是通过使用随机集成权重聚合 k 个预测来获得的,以提高伪标签视图的多样性。 如图 2 中的蓝色箭头所示,先前的指导充当附加正则化器,监督三个预测。 表述如下。
最后,通过将标准和建议的流量损失结合起来,定义无监督的总损失:
- Previous Guidance: Revisiting Temporal Knowledge
在训练期间存储满足指定标准的不同时期的多个模型,并使用它们的伪标签作为附加指导,称为先前指导。 随着训练的进行,学生和之前保存的教师之间的解耦会增加,从而允许获取不同的预测视图。 然而,随着脱钩变得更加明显,由于使用过时的教师,正确的伪标签自我训练的积极效果可能会减弱。 因此,以前的指导与从当前学生获得的标准指导结合使用。 此外,我们定义了存储先前模型的列表的最大长度(N),并在超过此限制时用较新的教师替换最旧的教师,以避免使用过度过时的教师。 形式上,从先前模型列表{T1,T2,…,TN}中随机选择一个先前模型。 然后,该模型处理标准流程中使用的相同弱扰动图像 xw 并生成预测 pw’ 。 先前的指导通过以下方式获得: yw′= argmax(pw′ ),并且它根据式(1)监督三个预测。通过利用包含不同时间知识视角的不同先前模型来产生不同的伪标签,而无需复杂的附加组件或沉重的计算负担。
保存标准: 在这种方法中,存储适当的先前模型对于生成多样化且可靠的伪标签至关重要。 一些研究在图像识别和分割中采用中间模型进行集成或过滤,定期保存模型(例如,总共 100 个时期中的每 20 个时期)。 相比之下,我们在模型在验证集上达到最佳性能时保存模型,以确保之前指导的稳定性。 神经网络的权值和性能在优化过程中可能会发生很大的变化,过大的波动可能会增加负面影响。 与标准图像识别相比,半监督语义分割中的标签稀缺和明显的类别不平衡可能会加剧这些负面影响。 此外,定期保存方法需要额外的超参数搜索来确定适当的间隔。 因此,我们采用我们的保存方法来实现稳定性和简单性(相关实验参见表9)。
虽然案例 (b) 的整体性能比基线 (a) 稍好,但差异很小。 这表明短时间间隔存储模型并不能解决教师和学生网络之间的耦合问题。 相反,与情况(a)相比,情况(c)显示出显着的改进。 尽管情况(c)运行良好,但与利用所提出的保存标准的情况(d)相比,它表现出有限的改进,这证明了所提出方法的优越性。 此外,我们的方法不需要额外的超参数搜索来确定适当的间隔,从而减少不必要的培训成本。
先前指导的功效可以直观地解释如下: 仅使用标准指导时,根据预测是否正确会出现两种训练场景。 如果预测不正确,网络就会朝着错误的方向进行训练。 相反,根据标准和先前的指导,可以根据它们是否正确(标准-先前)来考虑四种情况:(1)正确-正确,(2)正确-不正确,(3)不正确-正确, (4) 不正确不正确。 通过情况(3),网络获得了额外的机会被引导到正确的方向,远离错误的方向。 尽管模型训练可能会因情况(2)而受到阻碍,导致显着波动,但我们凭经验证明所提出方法的积极影响大于消极影响(第4.4.1节中的训练稳定性分析进一步支持了这一点)。 此外,先前的指导可以帮助减轻网络的灾难性遗忘问题,即在获取新知识时先前学到的知识被遗忘。 特别是,由于缺乏标记数据,这种现象在自我训练和类别不平衡场景(即在我们的场景中)中可能更加明显,可能导致表现不佳的类别出现显着的性能波动。 在半监督[20]和表示学习[61]中,一些研究表明利用时间知识有助于减轻灾难性遗忘问题并稳定训练。
- Maximizing Efficacy of Previous Guidance
提高预测可靠性的一种方法是使用网络集成技术。 这些技术作为一种有前景的提高性能的方法已广泛应用于各个领域。 特别是图像识别领域的几项研究[62]、[63]表明,在训练过程中获得的多个中间模型的集成也提高了预测精度和多样性。 因此,我们利用网络集成来提高先前指导的可靠性。 在设计该方法时,我们还考虑了计算复杂性和伪标签多样性。 为此,给定包含 N 个先前模型的列表,我们为每次迭代随机选择 K (K ≤ N) 个模型,以减轻计算复杂度的增加,同时确保伪标签多样性。 然而,正如 Dual Teacher [31] 中所述,这种总是集成 K 个模型的方法可能无法保证伪标签的多样性。 当 K 值较大时,这个问题会变得更严重。
因此,为了向学生网络提供可靠且多样化的伪标签,我们提出了一种高度随机的集成策略,包括以下两个想法:
随机选择:对于每次迭代,我们随机选择不同数量的教师 k,范围从 1 到 K。例如,当 K=3 时,每次迭代可以选择 k=1,2 或 3。 通过这种方法,选择大的 k 往往会产生一致的伪标签,从而增强可靠性,而选择小的 k 有助于增加伪标签的多样性。 此外,计算成本低于使用固定数字 K 时产生的计算成本。该策略使学生网络能够获得稳定且多样化的指导,其功能作为鲁棒的正则化器,有助于网络优化。
随机权重:关于集成权重,我们提出了一种随机聚合策略,该策略使用每次迭代的随机权重来平均 k 个预测,而不是对 k 个预测进行简单平均。 具体来说,k 个选定的教师接收 xw 并输出 k 个预测,{pw’ 1 , pw’ 2 , …, pw’ k }。 然后通过使用随机权重聚合这些预测来获得最终的先前指导,如下所示:
其中 wi 源自狄利克雷分布,如下所示:{w1, w2, …, wk} ∼ Dir(α1, α2, …, αk)。 请注意,wi 的总和为 1。 这种方法探索了连续空间中先前指导的所有组合,将原始伪标签空间扩展到简单平均值之外。
因此,所提出的随机集成策略可以提高先前指导的可靠性和多样性,同时减轻计算复杂性的增加。
实验结果
使用固定 K 获得的结果(第三行)表现出较小的性能提升。 相反,使用随机 K 的结果(第四行)表明性能显着提高。 这意味着固定的 K 集成提高了伪标签的可靠性,但限制了多样性,如 Dual Teacher 中所述,而随机的 K 策略可以为模型提供可靠且多样化的指导。 此外,使用随机权重进行网络集成有助于提高性能,表明它通过生成多样化的指导来扩展原始伪标签空间。
小结
PrevMatch 框架利用训练过程中获得的时间知识来有效解决阻碍稳定半监督学习的紧密耦合和确认偏差问题。 PrevMatch 的主要贡献包括重新审视时间知识的使用并最大化其有效性。 具体来说,其直接利用以前的模型向学生网络提供额外的伪标签指导,称为先前指导。 此外,开发了一种高度随机的集成策略,可以增强先前指导的可靠性和多样性,同时最大限度地减少计算复杂性的增加。