【论文翻译_自监督知识蒸馏】Self-supervised Label Augmentation via Input Transformations

通过输入转换实现自监督标签增强

Hankook Lee 1 Sung Ju Hwang 2 3 4 Jinwoo Shin 2 1,2020年。

摘要

自我监督学习,通过在给定输入信号的情况下构建人工标签进行学习,最近在使用无标签数据集学习表示方面获得了相当多的关注,即在没有任何人工标注监督的情况下学习。在这篇论文中,我们展示了这种技术可以用来显著提高模型的准确性,即使在完全标记的数据集下。我们的方案训练模型学习原始任务和自我监督任务,但不同于传统的多任务学习框架,优化其相应损失的总和。我们的主要思想是针对原始标签和自我监督标签的联合分布学习一个单一的统一任务,即通过输入变换的自我监督来扩充原始标签。这种简单而有效的方法可以通过在学习原始任务和自我监督任务的同时放松特定的不变约束来更容易地训练模型。它还支持聚合推理,将来自不同增广的预测组合在一起,以提高预测精度。此外,我们提出了一种新的知识转移技术,我们称之为自蒸馏,它在单个(更快的)推理中具有聚合推理的效果。我们展示了我们的框架在各种完全监督的设置上的巨大准确性改进和广泛的适用性,例如,少镜头和不平衡的分类场景。

1.介绍

近年来,自我监督学习(Doersch et al.,2015)在图像(Doersch et al.,2015;Noroozi& Favaro, 2016;Larsson等人,2017年;Gidaris等人,2018;Zhang等人,2019a)、自然语言(Devlin等人,2018)和视频游戏(Anand等人,2019)等方面的无监督表征学习中取得了显著的成功。当人类标注的标签稀缺时,该方法只使用输入的示例构建人工标签,称为自我监督,然后通过预测标签学习它们的表示。一种最简单但有效的自我监督学习方法是通过只观察修改后的输入t(x)来预测哪个变换t被应用到输入x上,例如,t可以是一个patch排列(Noroozi&Favaro,2016)或一个旋转(Gidaris等人,2018)。为了预测这种转换,模型应该区分什么是语义上自然的,什么不是,因此,它学习输入的高级语义表示。

基于转换的自我监督的简单性促使其广泛应用于非监督表示学习之外的其他目的,例如半监督学习(Zhai等人,2019;Berthelot等人,2020),提高鲁棒性(Hendrycks等人,2019),以及训练生成式对抗网络(Chen等人,2019)。之前的工作通常为原始任务和自我监督任务维护两个独立的分类器(但共享共同的特征表示),并同时优化它们的目标。然而,这种多任务学习方法在处理全标记数据集时通常不会提供精度增益。这启发我们去探索以下问题:我们如何有效地利用基于转换的自我监督来完成完全监督的分类任务?

贡献:我们首先讨论了我们的观察,即多任务学习方法迫使原始任务的主要分类器与自我监督任务的转换是不变的。例如,当使用旋转作为自我监督时(Zhai et al., 2019),将每个图像旋转0、90、180、270度,同时保持其原始标签,主分类器被迫学习对旋转不变的表示。强制这种不变性可能会导致任务的复杂性增加,因为转换可能会在很大程度上改变样本的特征和/或有意义的信息来识别目标,例如,图像分类6 vs 9或bird vs. bat。因此,这可能会损害整体的表示学习,降低主要全监督模型的分类精度(见3.2节的表1)。

请添加图片描述
图1所示。(a)我们的自我监督标签扩充和先前的自我监督方法的概述。(b)利用所有增广样本的聚合方法和将聚合后的知识转化为自身的自蒸馏方法的例证。(c 基于旋转的增强。(d) 基于修改颜色排列的增强。

为了应对这一挑战,我们提出了一个简单而有效的想法(见图1(a)),即学习一个单一的统一任务,而不是在之前的自我监督文献中通常使用的两个单独的任务。例如,在CIFAR10 (Krizhevsky et al.,2009)(10个标签)的训练中,使用旋转自我监督(4个标签),我们学习了所有可能组合的联合概率分布,即40个标签。

这种标签扩展方法,我们称之为自我监督标签扩展(SLA),在没有假设原始标签和自我监督标签之间的关系的情况下,不会强制转换具有任何不变性。此外,由于我们为每个转换分配了不同的自我监督标签,因此可以通过在测试时对所有转换进行聚合来做出预测,如图1(b)所示。这可以使用单个模型提供(隐式)整体效应。最后,为了在不损失集合效应的情况下加快推理过程,我们提出了一种新的自蒸馏技术,该技术将多个推理的知识转化为单个推理,如图1(b)所示。

在我们的实验中,我们考虑了两种类型的自监督标签扩展输入转换,旋转(4个转换)和颜色置换(6个转换),分别如图1©和图1(d)所示。为了证明我们的方法的广泛适用性和兼容性,我们在不同的基准数据集和分类场景下进行了实验,包括少数镜头和不平衡的分类任务。在所有的测试设置中,我们的简单方法显著提高了分类精度。例如,我们的方法在cifar100 (Krizhevsky et al., 2009)上的标准完全监督任务和FC100 (Oreshkin et al., 2018)上的5-way 5-shot任务上分别实现了8.60%和7.05%的相对精度增益,高于相关基线。

2.自监督标签增强

在本节中,我们将详细介绍自我监督标签扩展(增强)技术,重点关注完全监督的场景。我们首先在2.1节讨论了利用自我监督标签的传统多任务学习方法及其局限性。然后,我们在2.2节中介绍了我们的学习框架,它可以充分利用自我监督的力量。在这里,我们还提出了两种额外的技术:聚合,它利用所有不同的增强样本,以提供一个单一模型的集成效应;自蒸馏,在不损失集合效应的前提下,将聚集的知识转化为模型本身,以加速推理速度。

符号:设x∈Rd是输入,y∈{1,…,N}为其标号,其中N为类别的数量,LCE为交叉熵损失函数,请添加图片描述为softmax分类器,例如请添加图片描述, z = f(x;θ)为x的嵌入向量,其中f为带有参数θ的神经网络。我们也让(波浪线在x上方,可以参照原文)x~ = t(x)用变换t表示增强后的样本,而z~ = f(x~;θ)为扩增样本x(波浪线)的嵌入。

2.1自监督的多任务学习

在基于转换的自我监督学习中(Doersch等人,2015;Noroozi & Favaro, 2016年;Larsson等人,2017;Gidaris等人,2018;Zhang等人,2019a),模型学习预测哪个变换t被应用到给定的修改样本~x = t(x)的输入x。在其他任务中利用自我监督标签的常见方法是优化主任务和自我监督任务的两个损耗,同时共享它们的特征空间(Chen et al., 2019;Hendrycks et al., 2019;翟等,2019);也就是说,这两个任务是在多任务学习框架中进行训练的。因此,在完全监督的情况下,可以制定具有自我监督的多任务目标LMT如下所示:
请添加图片描述
其中请添加图片描述为预定义的变换,xj~ = tj(x)为tj变换后的样本,zj~ = f(xj~;θ)。其中请添加图片描述请添加图片描述分别是主要任务和自我监督任务的分类器(我认为u和v都是知识蒸馏里softmax分类器的参数,左边的·是softmax的输入)。上述损失迫使主分类器请添加图片描述对转换{tj}保持不变。根据变换类型的不同,强制这种不变性可能没有意义,因为增强训练样本(如通过旋转)的统计特征可能与原始训练样本的统计特征非常不同。在这种情况下,强制这些转换保持不变性会使学习变得更加困难,甚至会降低性能(参见第3.2节中的表1)。

在多任务学习目标(1)中,如果我们没有学习自我监督,那么可以将其视为数据增强目标LDA,如下所示:
请添加图片描述
这种传统的数据增强旨在通过利用某些可以保持语义的转换来提高目标神经网络f的泛化能力,例如:剪裁、对比度增强和翻转。另一方面,如果一个转换修改了语义,与转换相关的不变属性可能会干扰语义表示学习(见3.2节中的表1)。

2.2通过联合标签分类器消除不变性

我们的关键思想是去除变换后的样本中(1)和(2)中分类器请添加图片描述不必要的不变性质。为此,我们使用一个联合softmax分类器请添加图片描述,将联合概率表示为请添加图片描述那么,我们的训练目标可以写成:
请添加图片描述

其中,请添加图片描述需要注意的是,该框架只增加了标签的数量,因此与整个网络相比,额外参数的数量可以忽略不计,例如,在使用ResNet-32时,新引入的参数只有0.4% (He et al.,2016)。(====)我们还指出,当w(ij) = u(i) + v(j)时(括号中为右下标),上述目标可简化为多任务学习目标L(MT) (1);当对于所有i都有 w(ij) = u(i)时,简化为数据增广目标LDA(2)。从优化角度来看,L(MT)和L(SLA)考虑的是同一组多标签,但前者需要附加约束,因此比后者更难优化。图1(a)说明了传统的增强、多任务学习和我们的方法的区别。在训练过程中,我们像Gidaris等人(2018)所做的那样,在每次迭代中同时输入所有M个增强样本,即对于每一个最小批次的B,最小化请添加图片描述。我们还假设第一个变换是恒等函数,即x(1)~ = t1(x) = x。

聚合推理:通过一个变换t(j)给定一个测试样本x或它的增广样本请添加图片描述,我们不需要考虑所有N×M个标签来预测它的原始标签,因为我们已经知道应用了哪个变换。因此,我们利用条件概率请添加图片描述。此外,对于所有可能的变换{t(j)},我们将相应的条件概率进行聚合,以提高分类精度,即我们训练单个模型,该模型可以像集成模型一样进行推理。为了计算聚合推断的概率,我们首先平均softmax前的激活(即logits),然后计算softmax概率,如下所示:
请添加图片描述
其中,请添加图片描述。由于我们为每个转换t(j)分配了不同的标签,我们的聚合方案显著提高了准确性。有些令人惊讶的是,在我们的实验中,它与多个独立模型的集合具有相当的性能(见3.2节的表2)。我们将聚合的对应物称为单一推理,它只使用非扩充或原始样本x(1)~=x,例如,使用该概率请添加图片描述推断一个标签。

使用聚合的自蒸馏:虽然上述聚合推理的性能很好,但对于所有j,需要计算z(j)~ = f(xj~),即需要比单个推理高M倍的计算成本。为了加速推理,我们进行了自蒸馏(Hinton et al.,2015;Lan等人,2018)从聚合的知识P aggregated(·|x)到由u参数化的另一个分类器请添加图片描述,如图1(b)所示。然后,上述分类器可以只使用一个嵌入z = f(x)来维护聚合的知识。为此,我们优化以下目标:
请添加图片描述
其中β是超参数,我们简单地选择β∈{0,1}。在计算L(SLA+SD)的梯度时,我们将P aggregated(·|x)视为一个常数。经过训练,我们使用请添加图片描述用于不加聚合的推理。

3.实验

我们通过实验验证了在第2节中描述的自我监督标签增强技术。在本节中,我们将数据增强LDA(2)称为DA,将多任务学习LMT(1)称为MT,将自我监督标签增强LSLA(3)称为SLA,以简化符号。我们也将仅使用随机裁剪和翻转数据增加(不旋转和颜色排列)的基线称为“基线”。注意,DA不同于基线,因为DA使用自我监督作为增强(例如,旋转),而基线则没有。在使用LSLA进行训练后,我们考虑了两种推理方案:单推理P(i|x,j = 1)和聚合推理Paggregated(i|x)分别表示为SLA+SI和SLA+AG。我们还将自蒸馏方法L(SLA+SD)(5)表示为SLA+SD,它只使用单一推理请添加图片描述

3.1设置

数据和模型:我们在各种分类数据集上评估我们的方法:CIFAR10/100 (Krizhevsky et al., 2009),加州理工大学ucsd Birds或CUB200 (Wah et al.,2011),室内场景识别或MIT67 (Quattoni & Torralba, 2009),斯坦福狗(Khosla et al.,2011),以及用于标准或不平衡图像分类的tiny-ImageNet3;mini-ImageNet (Vinyals et al., 2016), cifarfs (Bertinetto et al., 2019),以及FC100 (Oreshkin et al., 2018)用于少弹分类。请注意,CUB200、MIT67和Stanford Dogs都是细粒度的数据集。我们对CIFAR使用32层残差网络(He et al., 2016),对三个细粒度数据集和微型imagenet使用18层残差网络,除非另有说明。

实现细节:对于标准的图像分类数据集,我们使用学习速率为0.1的SGD,动量为0.9,权值衰减为0.0001。我们训练80k次迭代,批处理大小为128。对于细粒度的数据集,我们以32个批处理的规模训练了30k次迭代,因为它们的训练样本数量相对较少。在50%和75%的迭代中,我们以常数因子0.1衰减学习速率。除非另有说明,我们报告所有实验三次试验的平均精度。在与其他方法相结合时,我们使用公开可用的代码,并按照他们的实验设置:MetaOptNet (Lee et al.,2019)用于少镜头学习,LDAM (Cao et al.,2019)用于不平衡数据集,FastAutoAugment (Lim et al., 2019)和CutMix (Yun et al., 2019)用于高级增强实验。在补充材料中,我们提供了算法的伪代码,这很容易实现。

选择的变换:由于在训练过程中使用整个输入图像对图像分类很重要,所以一些自我监督技术并不适合我们的目的。例如,Jigsaw puzzle方法(noroozi&favaro, 2016)将一个输入图像分割成3×3个patch,然后分别计算它们的嵌入。使用这种嵌入的预测效果要比使用整个图像的预测效果差。为了避免这个问题,我们选择了使用整个输入图像而不进行裁剪的两种转换:旋转(Gidaris等人,2018)和颜色置换。旋转构造M = 4张旋转后的图像(0°, 90°, 180°,270°),如图1©所示。由于其简单性,这种转换被广泛用于自我监督(Chen et al., 2019;翟等,2019)。颜色排列构成M = 3!= 6张不同的图像,通过交换RGB通道,如图1(d)所示。当颜色信息很重要(如细粒度分类数据集)时,这种转换非常有用。

3.2消融实验

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值