ORCA.

题目:《OPEN-WORLD SEMI-SUPERVISED LEARNING》

        FedoSSL 用的是这一篇提出的方法 ORCA (Open-woRld with unCertainty based Adaptive margin,基于不确定性自适应边界的开放世界)

Abstract

半监督学习的挑战:

        在现实世界中应用半监督学习的一个基本限制是这样一个假设:未标记的测试数据只包含在标记的训练数据中已经遇到的类别。然而,这个假设 很少适用于野外数据,因为在测试时 可能会出现属于新类别的实例

        我们引入了一种新颖的开放世界半监督学习设置,该设置形式化了未标记的测试数据中可能出现新类别的概念。在这个新颖的设置中,目标是解决标记数据和未标记数据之间的类别分布不匹配问题,其中在测试时每个输入实例 要么被分类到现有类别之一,要么需要初始化一个新的未见过的类别

        为了解决这个具有挑战性的问题,我们提出了 ORCA,一种端到端的深度学习方法,它引入了 不确定性自适应边界 机制来规避由于学习对现有类别的区分特征比对新类别更快而对现有类别的偏见。通过这种方式,ORCA 减少了现有类别与新类别之间的类内方差差距。在图像分类数据集和单细胞注释数据集上的实验表明,ORCA在一致性上超越了替代基线,实现了在ImageNet数据集上对现有类别25%的改进和对新类别96%的改进

1 Introduction

图1:在开放世界中,未标记的数据集可能包含在标记集中从未遇到过的类;给定未标记的测试集,模型需要将实例分配给先前在标记集中看到的类之一,或者形成一个新的类并将实例分配给它

和目前两种工作路线的比较,体现出开放世界 SSL 设置的优越性

        在本文中,我们提出了ORCA,它在新颖的开放世界半监督学习(SSL)设置下运行。ORCA有效地将未标记数据中的示例分配给之前见过的类别,或者通过将相似实例分组来形成新的类别。ORCA 是一个端到端的深度学习框架,我们方法的关键是一种新颖的 不确定性自适应边界机制,该机制在训练过程中逐渐降低模型的可塑性并提高其可区分性。这种机制有效地减少了由于比新类别更快地学习现有类别而造成的现有类别与新类别之间的类内方差之间的不期望差距,我们展示了这是这种设置中的关键困难。然后,我们开发了一种特殊的模型训练程序,它学习将数据点分类到一组之前见过的类别,同时也学习使用每个新发现的类别的附加 分类头。现有类别的分类头用于将未标记的示例分配给标记集中的类别,而激活附加分类头则允许 ORCA 形成一个新类别。ORCA不需要事先知道新类别的数量,并且可以在部署时自动发现它们

        在机器学习和深度学习中,"分类头"(Classification Head)通常指的是网络中负责最终分类任务的部分。它是一个或一组神经网络层,这些层通常位于模型的末端,用于将模型的输出映射到特定的类别上。分类头的目的是将输入数据的特征表示转换为类别标签的概率分布

        我们在三个适应开放世界SSL设置的基准图像分类数据集和一个生物学领域的单细胞注释数据集上评估了 ORCA。由于没有现有的方法可以在开放世界 SSL 设置下运行,我们扩展了现有的最先进的 SSL、开放集识别和新类别发现方法到开放世界 SSL,并将其与 ORCA 进行比较。实验结果表明,ORCA 有效地解决了开放世界 SSL 设置的挑战,并一致地以较大的优势超越了所有基线。具体来说,ORCA 在 ImageNet 数据集的现有和新类别上分别实现了25%和96%的改进。此外,我们展示了 ORCA 对未知数量的新类别、现有和新类别的不同分布、不平衡的数据分布、预训练策略以及少量标记示例具有鲁棒性

3 PROPOSED APPROACH

图2:ORCA 框架概述。ORCA 利用额外的分类头用于新类别

ORCA 的目标函数包括:

(i) 带有不确定性自适应边界的监督目标

(ii) 生成伪标签的成对目标

(iii) 正则化项


SETTING

OPEN-WORLD SEMI-SUPERVISED LEARNING SETTING 开放世界半监督学习的设置:

        在输入时,给出数据集的

标记部分

未标记部分

表示在 标记数据 中 已见过类 的集合

表示在 未标记测试数据 中的类的集合

        假设类之间存在类别转移,即

我们认为是已见过的类别集合

是新类别集合

定义1(开放世界SSL)在开放世界SSL中,模型需要将来自的实例分配给之前已见过类,或形成一个新类别并将实例分配给它

注意,开放世界 SSL 概括了新类别发现(Novel Class Discovery)和传统的(封闭世界)SSL,新类别发现假设标记数据和未标记数据中的类别 互斥,即;而传统的(封闭世界)SSL假设标记数据和未标记数据中有相同的类别

OVERVIEW OF ORCA

        解决开放世界半监督学习(SSL)的关键挑战是同时从已知/标记的类别以及未知/未标记的类别中学习。这是具有挑战性的,因为模型在学习已知类别的区分性表示时比新类别要快。这导致已知类别的类内方差比新类别要小。为了解决这个问题,我们提出了 ORCA,这是一种在训练过程中使用不确定性自适应边界来减少已知和新类别的类内方差差距的方法

        ORCA 的关键见解是 通过未标记数据上的不确定性来控制已知类别的类内方差:如果未标记数据上的不确定性很高,我们将强制已知类别有更大的类内方差,以减少已知和新类别方差之间的差距;而如果不确定性较低,我们将强制已知类别有更小的类内方差,以鼓励模型充分利用标记数据。通过这种方式,使用不确定性自适应边界,我们控制已知类别的类内方差,并确保已知类别的区分性表示不会比新类别学习得太快

        给定标记实例

未标记实例,ORCA 首先应用嵌入函数来获得标记和未标记数据的特征表示

其中对于每个实例

        在主干网络上,我们添加了一个分类头,它由一个权重矩阵参数化的单线性层组成,并跟一个 softmax 层

        注意分类头的数量设置为 之前已见过类的数量加上预期的新类数量,因此前个头将实例分类为之前已知的类别之一,而其余的头将实例分配给新类别。最终的类预测计算为

如果,那么属于新类别

新类别的数量可以是已知的,并作为算法的输入

        然而,如果事先不知道新类别的数量,我们可以初始化 ORCA 以一个大量预测头/新类别。然后ORCA 的目标函数通过不将任何实例分配给不需要的预测头来推断类别的数量,这样这些头就永远不会被激活

        ORCA 的 目标函数 结合了三个组件,分别是带有不确定性自适应边界的监督目标、生成伪标签的成对目标、正则化项

在我们的所有实验中,正则化参数 η1 和 η2 被设置为 1,接下来讨论每个目标项的详细信息

SUPERVISED OBJECTIVE WITH UNCERTAINTY ADAPTIVE MARGIN

        首先,带有不确定性自适应边界的监督目标迫使网络正确地将实例分配给之前已知的类别,控制此任务的速度,以便同时学习形成新类别,我们利用标记数据的 类别注释,并优化权重和主干。类别注释可以通过使用 标准交叉熵损失 作为监督目标来利用:

Categorical annotations,类别注释,指的是数据集中每个样本的类别标签,这些标签通常是离散的,表示样本属于数据集中的哪个预定义类别。例如,在图像分类任务中,每张图片可能会有一个类别注释,如“猫”、“狗”或“车”。

然而,使用标记数据的标准交叉熵损失会在已知和新类别之间造成不平衡问题,即,梯度针对已知类别 Cs 更新,但不针对新类别 Cn。这可能导致针对已知类别学习到更大的梯度幅度(Kang 等人,2019),导致整个模型偏向已知类别。为了解决这个问题,我们引入了不确定性自适应边界机制,并提出规范化 logits,如下所述

一个关键挑战是,由于监督目标,已知类别学习得更快,因此它们往往与新类别相比具有更小的类内方差(Liu 等人,2020)。成对目标通过在特征空间中对距离进行排名,为未标记数据生成伪标签,因此类别之间的类内方差不平衡将导致伪标签错误。换句话说,来自新类别的实例将被分配到已知类别。为了减少这种偏差,我们提出使用自适应边界机制来减少已知和新类别的类内方差之间的差距。直观地说,在训练开始时,我们希望强制执行更大的负边界,以鼓励已知类别相对于新类别具有类似的大类内方差。在训练接近结束时,当为新类别形成了簇时,我们调整边界项几乎为 0,以便模型可以充分利用标记数据,即,目标函数归结为在方程(2)中定义的标准交叉熵。我们建议使用不确定性来捕获类内方差。因此,我们根据不确定性估计来调整边界,这实现了期望的行为——在早期训练周期中不确定性很大,导致边界很大,而随着训练的进行不确定性变小,导致边界变小

具体来说,带有不确定性自适应边界机制的监督目标定义如下:

 

其中,是不确定性,是定义其强度的正则化项,是一个额外的缩放参数用于控制交叉熵损失的温度(Wang等人,2018)。为了估计不确定性,我们依赖从 softmax 函数的输出计算未标记实例的置信度。在二元设置中

可以进一步近似:

为了正确调整边界,我们需要限制分类器的幅度,因为未限制的分类器幅度可能对边界调整产生负面影响。为了避免这个问题,我们规范化了线性分类器的输入和权重,即

 

PAIRWISE OBJECTIVE

        成对目标学习预测实例对之间的相似性,以便同一类别的实例能够被分组在一起。这个目标部分为 未标记数据生成伪标签以指导训练。通过使用不确定性自适应边界控制已知和新类别的类内方差,ORCA 提高了伪标签的质量

        具体来说,我们将聚类问题转化为 成对相似性预测任务,给定标记数据集和未标记数据集,我们的目标是微调主干网络,并学习一个由线性分类器参数化的相似性预测函数,以便同一类的实例能被分组在一起。为此,我们依赖于标记数据集的真值注释和在未标记集上生成的伪标签。

        为了获得未标记集的伪标签,我们计算小批量(mini-batch)中所有特征表示对的余弦距离,然后我们对计算出的距离进行排序,并为每个实例生成其最相似邻居的伪标签。因此,我们只为每个实例在小批量内最有信心的 正对 生成伪标签。对于小批量中的特征表示,我们将其最近集合表示为,注意始终是正确的,因为它是使用真值标签生成的。ORCA 中的成对目标定义为二元交叉熵损失的修改形式:

  • 正对指的是那些属于相同类别的样本对。在聚类或分类任务中,如果两个样本应该被划分到同一个组或类别中,它们就构成了一个正对
  • 负对指的是那些不属于相同类别的样本对。在聚类或分类任务中,如果两个样本应该被划分到不同的组或类别中,它们就构成了一个负对

这里,σ 表示 softmax 函数,它将实例分配给已知或新的类别之一。对于标记实例,我们使用真值注释来计算目标。对于未标记实例,我们基于生成的伪标签来计算目标。我们只考虑最有信心的正对来生成伪标签,因为我们发现伪标签中的噪声增加对聚类学习是不利的(负对可以很容易地被识别出来)。与以前的工作不同,我们只考虑正对,因为我们发现在我们的目标中包含负对对学习没有帮助。我们的仅正对成对目标与以前的工作相关,但我们在线性地更新距离和正对,从而在训练过程中从改进的特征表示中受益

REGULARIZATION TERM

最后,正则化项避免了将所有实例分配到同一类别的平凡解决方案。在训练的早期,网络可能会退化到一个平凡解,即所有实例都被分配到一个单一的类别,即。我们通过引入一个Kullback-Leibler(KL)散度项来阻止这种情况,该项将正则化,使其接近标签的先验概率分布

由于在大多数应用中知道先验分布是一个强假设,我们在所有实验中使用最大熵正则化来正则化模型。最大熵正则化已在基于伪标签的半监督学习(Araz0 等人,2020)、深度聚类方法(Van Gansbeke 等人,2020)和在噪声标签上的训练(Tanaka等人,2018)中使用,以防止类分布过于平坦。在实验中,我们展示了即使在类别分布不平衡的情况下,这个项也不会对 ORCA 的性能产生负面影响。

SELF-SUPERVISED PRETRAINING

我们考虑对 ORCA(以及所有基线模型)进行 自我监督预训练。在图像数据集上,我们使用自我监督学习来预训练 ORCA 和基线模型。自我监督学习定义了一个不需要任何手动标注的前提/辅助任务,并且可以方便地应用于标记和未标记的数据。这个前提任务以完全无监督的方式引导模型学习有意义的表示。特别是,我们依赖于 SimCLR 方法(Chen等人,2020a)。我们在整体数据集上使用前提目标(pretext objective)预训练主干网络​。在训练期间,我们冻结主干网络的前几层,并更新其最后几层和分类器我们对所有基线模型采用相同的 SimCLR 预训练协议。我们还考虑了没有预训练的情况,其中对于细胞类型注释任务,我们不使用任何前提任务,ORCA 从随机初始化的权重开始。此外,我们在附录 C 中报告了不同的预训练策略的结果,包括仅在数据的标记子集上进行预训练,以及用 RotationNet 替换 SimCLR(Kanezaki 等人,2018)

SimCLR,即 Simple Contrastive Learning of Visual Representations,是一种用于学习图像特征表示的无监督学习方法。这种方法由陈等人(Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton)在 2020 年提出,它的核心思想是通过对比学习来训练一个神经网络,以便学习到能够捕捉输入图像本质特征的表示

4 EXPERIMENTS

EXPERIMENTAL SETUP

        数据集:我们在包括三个标准基准图像分类数据集CIFAR-10CIFAR-100 和 ImageNet,以及一个高度不平衡的单细胞Mouse Ageing Cell Atlas 生物学领域数据集上评估 ORCA。对于 单细胞数据集,我们考虑了一个现实跨组织的细胞类型注释任务,其中未标记数据来自与标记数据不同的组织(Cao等人,2020a)(详细信息见附录B)。对于ImageNet数据集,我们根据(Van Gansbeke等人,2020)随样了100个类别。在所有数据集上,我们使用可控制的未标记数据和新类别的比例。我们首先将类别分为50%的已知类别和50%的新类别。然后,我们选择50%的已知类别作为标记数据集,其余作为未标记集合。我们在附录C中展示了不同比例的已知和新类别以及10%标记样本的结果

        基线:鉴于开放世界SSL是一个新设置,没有现成的基线可用。因此,我们扩展了新类别发现、SSL 和开放集识别方法到开放世界 SSL 设置中。新类别发现方法不能识别已知类别,即,将未标记数据集中的类别与标记数据集中之前已知的类别进行匹配。我们报告了它们在新类别上的性能,并通过以下方式扩展这些方法适用于已知类别:我们将已知类别视为新类别(这些方法有效地对未标记数据进行聚类),并通过使用匈牙利算法将发现的一些类别与标记数据集中的类别进行匹配,来报告已知类别上的性能。我们考虑了两种方法:DTC(Han等人,2019)和 RankStats(Han等人,2020)

        另一方面,传统的 SSL 和开放集识别(OSR)方法不能发现新类别。因此,我们以以下方式扩展 SSL 和 OSR 方法以适用于新类别:我们使用 SSL/OSR 对点进行分类,并将属于未知类别的样本估计为离群样本。我们报告了它们在已知类别上的性能,然后我们对离群样本应用 K-means 聚类(Lloyd,1982)以获得簇(新类别)。通过这种方式,我们将两种 SSL 方法适应到开放世界SSL设置中:Deep Safe SSL(DS3L)(Guo等人,2020)和 FixMatch(Sohn等人,2020),以及最近的深度学习OSR方法 CGDL(Sun等人,2020a)。CGDL 自动拒绝离群样本。DS3L 通过为离群样本分配低权重来考虑未标记数据中的新类别。为了扩展该方法,我们对权重最低的样本进行聚类。对于 FixMatch,我们基于 softmax 置信度分数估计离群样本。对于这两种 SSL 方法,我们使用已知和新类别分区的真值信息来确定离群样本的阈值

        在图像数据集上,我们使用 SimCLR 预训练了所有新类别发现和SSL基线模型,以确保ORCA的好处不是因为预训练。唯一的例外是 DTC,它有自己的专门的预训练过程在标记数据上(Han等人,2019)。作为额外的基线,我们在 SimCLR 预训练后获得的表示上运行了 K-means聚类(Chen等人,2020a)

        我们还进行了广泛的 消融研究,以评估 ORCA 方法的好处。具体来说,我们包括了将监督目标中的 自适应边界交叉熵损失 替换为 标准交叉熵损失 的基线,即零边界(ZM)方法。此外,为了评估自适应边界的影响,我们将 ORCA与固定负边界(FNM)进行了比较。我们发现边界值为 0.5 时性能最佳(附录C),我们在实验中使用了这个值。我们将第一个基线命名为 ORCA-ZM,第二个基线命名为 ORCA-FNM。更多的实现和实验细节可以在附录中找到

表2:在 CIFAR-10、CIFAR-100、ImageNet-100 和单细胞数据集上,经过三次运行计算出的平均准确率。星号(∗)表示原始方法无法识别已知类别(我们必须扩展它)。剑号(†)表示原始方法无法检测新类别(我们必须扩展它)。SimCLR 和 FixMatch 在单细胞数据集上不适用(NA)。改进是相对于最佳基线的提升计算的

备注:我们知道,使用扰动输入数据的对比学习可以在视觉数据集上显著提升无监督学习的性能(Van Gansbeke等人,2020)。我们有意避免使用这些技巧,因为它们可能不容易转移到其他领域。对于感兴趣的读者,请随时添加这些技巧并重新评估我们的模型

Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, and Luc Van Gool. SCAN: Learning to classify images without labels. In European Conference on Computer Vision, 2020.


idea:同时使用伪标签和扰动输入的对比学习

RESULTS

        在基准数据集上的评估:我们报告了在已知类别和新类别上以及整体的准确率。表2显示,ORCA在所有基线方法上都取得了大幅度的一致性改进。例如,在 CIFAR-100 和 ImageNet 数据集的已知类别上,ORCA分别比最佳基线提高了21%和25%。在新类别上,ORCA在CIFAR-100上比基线提高了51%,在ImageNet上提高了96%,在单细胞数据集上提高了104%。此外,将ORCA与 ORCA-ZM 和 ORCA-FNM 基线比较清楚地展示了引入不确定性自适应边界对于解决开放世界SSL 的重要性。总体而言,我们的结果表明:(i)开放世界SSL设置是困难的,现有方法不能充分解决它;(ii)ORCA有效地解决了开放世界SSL的挑战,并取得了显著的性能提升

        引入不确定性自适应边界的好处:我们进一步系统地评估了引入不确定性自适应边界机制的效果。在CIFAR-100数据集上,我们比较了ORCA与ORCA-ZM和ORCA-FNM基线在训练期间的表现(见图3)。我们报告了准确率和不确定性,后者捕捉了类内方差,如第4条中所定义。在第140个时期,我们降低了学习率。结果表明,ORCA-ZM在训练期间无法减少新类别的类内方差,导致在新类别上的表现不佳。在已知类别上,ORCA-ZM很快就达到了高性能,但在训练接近结束时其准确率开始下降。学习率触发性能下降的原因是小的学习率可能导致过拟合问题(Li等人,2019),这在ORCA-ZM中由于已知类别和新类别之间的方差差异以及随小学习率恶化的嘈杂伪标签而成为一个问题(Song等人,2020)。这表明,没有不确定性自适应边界,模型会非常快速地学习已知类别,但无法在新类别上取得满意的性能。相比之下,ORCA有效地减少了已知和新类别的类内方差,并持续提高了准确率。这一结果完全符合我们在训练期间缓慢提高已知类别的可区分性以确保已知和新类别之间类内方差相似的关键思想。与ORCA-FNM相比,自适应边界在已知类别上显示出明显的好处,在整个训练过程中实现了更低的类内方差和更好的性能。总之,负边界确保了已知类别更大的类内方差,允许模型学习形成新类别,而自适应边界确保了模型能够随着训练的进行充分利用标记数据。

        与表2中的其他基线相比,ORCA在仅12个周期后的性能就超过了它们的最终性能。此外,在附录C中,我们展示了不确定性自适应边界如何提高伪标签的质量,并证明了对不确定性强度参数λ的鲁棒性。综合来看,我们的结果强烈支持不确定性自适应边界的重要性。

        在评估未知新类别数量方面:ORCA和其他基线假设新类别的数量是已知的。然而,在实践中,我们通常事先不知道类别的数量。在这种情况下,我们可以通过首先估计类别数量来应用ORCA。为了在具有100个类别的CIFAR-100数据集上评估性能,我们首先使用Han等人(2019)提出的技术估计类别数量为124。然后我们使用估计的类别数量重新测试所有算法。ORCA通过不使用所有初始化的分类头,自动修剪类别数量,并找到了114个新簇。表3中的结果显示,ORCA超过了新类别发现基线,比RankStats提高了97%。此外,使用估计的类别数量,ORCA的结果仅比事先知道类别数量的设置略差。我们进一步使用匈牙利算法分析了ORCA未使用的14个头,发现它们与小簇有关,即未分配头中样本的平均数量仅为16。这些类别上的归一化互信息(NMI)为59.4,略高于分配头的NMI。这表明额外的簇包含正确类别的较小子类,并且属于有意义的簇。我们在附录C中进行了更多关于类别数量的大型消融研究。

        目标函数的消融研究:ORCA的目标函数由带有不确定性自适应边界的监督目标、成对目标和正则化项组成。为了研究每个部分的重要性,我们进行了消融研究,通过删除:(i) 监督目标(即没有LS),以及 (ii) 正则化项(即没有R)。在第一种情况下,我们仅依赖于正则化的成对目标来解决问题,而在后一种情况下,我们使用未正则化的监督和成对目标。我们注意到成对目标是发现新类别所必需的。表4中在CIFAR-100数据集上显示的结果表明,监督目标LS和正则化R是目标函数的重要组成部分。附录C中报告了在不平衡数据分布上的额外实验结果。

表3:在CIFAR-100数据集上,未知新类别数量时,经过三次运行计算出的平均准确率和归一化互信息(NMI)

表4:在CIFAR-100数据集上,目标函数组成部分的消融研究。我们报告了经过三次运行计算出的平均准确率和NMI

"W/o" 是 "without" 的缩写,意为“没有”。在文档、表格或技术描述中,它通常用来表示某个条件或项目的缺失

5 CONCLUSION

        我们介绍了开放世界半监督学习(open-world SSL)的设置,其中未标记的测试数据中可能出现新类别,模型需要将实例分配给在标记数据中见过的类别,或者形成新类别并将实例分配给它们。为了解决这个问题,我们提出了ORCA,一种基于不确定性自适应边界机制的方法,该机制在训练期间控制已知和新类别的类内方差。我们广泛的实验表明,ORCA 有效地解决了开放世界SSL问题,并以大幅度优势超越了其他基线方法。我们的工作倡导从传统的封闭世界设置转变为对机器学习模型进行更现实的开放世界评估

附录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值