【专栏:前沿进展】
随着为机器提供更多高质量的标签,监督学习模型的性能也会提高。然而,获取大量带标注样本的代价十分高昂。在机器学习中,有一些方法用于解决标签稀少的场景,半监督学习是其中一种解决方案,它可以利用一小部分有标签数据和大量的无标签数据进行学习。
对于只有有限标签数据的有监督任务,通常有四种候选方案:
预训练+微调 (Pre-Training+Fine-Tuning):在大规模无监督数据上训练一个与任务无关 (Task-Agnostic)的模型,例如在文本数据上训练的 Pre-Training LMs,以及通过自监督学习在无标签图片上预训练的视觉模型等。然后,在下游任务中通过少量的有标签样本集合对模型进行微调。
半监督学习 (Semi-Supervised Learning):在有标签数据和无标签样本上共同学习。很多视觉相关的任务研究的就是这种方法。
主动学习 (Active Learning):为样本打标签的成本很昂贵,但是在给定成本预算的前提下,我们仍然希望可以获得的更多带标签数据。主动学习旨在选择最有价值的无标签样本进行收集,帮助我们在有限的预算下采取明智的行动。
预训练 + 数据集自生成 (Pre-Training + Dataset Auto-Generation):给定一个良好的预训练模型,我们可以利用它生成更多的有标签样本。受少样本学习 (Few-Shot Learning)的启发,这种方式在语言领域很流行。
本文是OpenAI研究员Lilian Weng(翁荔)的最新博客文章,
智源社区已经获得Lilian Weng个人博客授权。博客地址:https://lilianweng.github.io/lil-log/。
本篇为“数据不足情况下的学习”(Learning With Not Enough Data)系列文章的第一部分,主题是半监督学习 (Semi-Supervised Learning)。
以下是整篇文章的目录
什么是半监督学习?
符号说明
假设
一致性正则化
Π-model
Temporal Ensembling
Mean Teachers
Noisy Samples As Learning Targets
伪标签方法
标签传播(Label Propagation)
自训练 (Self-Training)
伪标签+一致性正则化
MixMatch
DivideMix
FixMatch
结合强大的预训练
参考文献
作者:Lilian Weng
翻译:沈林杉
审校:戴一鸣
作者介绍:
Lilian Weng现为OpenAI应用人工智能研究负责人,主要从事机器学习、深度学习和网络科学研究 。她本科毕业于香港大学,硕士就读于北京大学信息系统与计算机科学系,之后前往印度安纳大学布鲁顿分校攻读博士。
01
什么是半监督学习?
半监督学习通过使用有标签和无标签数据来共同训练模型。
当前,大多数有关半监督学习的研究主要关注的是视觉任务。而预训练+微调是语言任务中更常见的范式。
本文介绍的所有方法都有一个由两部分组成的损失:。给出所有标注的样本,监督损失很容易得到。我们将重点介绍如何设计无监督损失。加权项一般选择斜坡函数,使得的重要性随着时间而增加,其中是训练步骤。
免责声明:本文不打算讨论半监督方法,而将重点放在模型架构修改上。这篇综述(https://arxiv.org/abs/2006.05278)讨论了如何在半监督学习中使用生成模型和基于图的方法。
02
符号说明

03
半监督学习中的假设
当前的半监督学习研究中讨论了几个假设,以支持半监督学习方法中的某些设计决策。
H1:平滑假设——如果两个数据样本在特征空间中的高密度区域非常接近,则它们的标签应相同或相似。
H2:聚类假设——特征空间既有密集区域,也有稀疏区域。位于密集区域的数据点会自然地会形成簇,而同一簇中的样本应具有相同的标签。这是聚类假设的一个小扩展。
H3:低密度分离假设——类之间的决策边界往往位于稀疏、低密度区域,否则决策边界会将高密度簇分为两类,从而形成两个簇,使得平滑假设和聚类假设失效。
H4:流形假设——高维数据实际上是由一个低维流形映射到高维空间上的。即使真实世界中的数据是在高维度上观察到的,例如真实世界中的物体/场景的图片,我们也可以捕获它们的内在低维流形结构。在这里就可以发现数据的潜在规律,相似的数据点将被聚到一起 (真实世界中的物体/场景的图像不是在所有像素组合中均匀采样的)。这使得我们能够学习一个更有效地表示,来度量无标签数据之间的相似性。这也是表示学习的基础。(可参考:what-is-the-manifold-assumption-in-semi-supervised-learning)
04
一致性正则化
一致性正则化 (Consistency Regularization),又称一致性训练 (Consistency Training),假设在给定相同输入的情况下,神经网络内的随机性 (如Dropout)或数据增强变换不会改变模型的预测结果。本节中提到的每个方法都有一个对应的一致性正则化损失,记为。
一致性正则的思想已经被应用于一些自监督学习方法中,如SimCLR、BYOL、SimCSE等。自监督学习的核心思想是同一样本的不同增强版本应产生相同的表示。不论是语言建模中的跨视角训练 (Cross-View Training),还是自监督学习中的多视角学习 (Multi-View Learning),它们的出发点都是相同的。
1. Π-Model
图注:Π-Model框架。当同一数据点经过不同的随机变换 (如Dropout、随机最大池化等),将得到两个版本 (Version)作为网络的输入,我们期望它们对应的输出是一致的。(图片来源: Laine & Aila (2017))
Sajjadi et al. (2016)提出了一种无监督损失,它通过对同一数据点进行两次随机变换 (例如Dropout、Random Max-Pooling),然后通过最小化两个变换后的数据点经过网络后的差异来进行学习。
由于标签没有被显式地使用,因此这个损失函数也可以用于无标签的数据集。Laine & Aila (2017)将其命名为Π-model。
本文深入探讨了半监督学习,特别是在数据有限的情况下,如何利用少量有标签数据和大量无标签数据进行学习。介绍了多种方法,如一致性正则化、伪标签、MixMatch、DivideMix和FixMatch等,强调了数据增强、预训练和减少确认偏误在提升模型性能中的重要性。文章适合对半监督学习感兴趣的读者和研究人员参考。
最低0.47元/天 解锁文章
9

被折叠的 条评论
为什么被折叠?



