在线蒸馏论文翻译——Peer Collaborative Learning for Online Knowledge Distillation

在线蒸馏论文翻译——Peer Collaborative Learning for Online Knowledge Distillation

在线知识蒸馏的同伴协作学习


论文地址:https://arxiv.org/pdf/2006.04147v2.pdf
代码地址:https://github.com/shaoeric/Peer-Collaborative-Learning-for-Online-Knowledge-Distillation

摘要

传统的知识蒸馏使用两阶段训练策略将知识从高容量教师模型转移到紧凑的学生模型,这严重依赖于预先训练的教师。最近的在线知识提炼通过协作学习、相互学习和在线集成,遵循一个阶段的端到端培训方式,减轻了这一限制。然而,协作学习和相互学习无法构建在线高容量教师,而在线集成忽略了分支之间的协作,其逻辑总和阻碍了集成教师的进一步优化。在这项工作中,我们提出了一种新的用于在线知识提取的对等协作学习方法,该方法将在线集合和网络协作集成到一个统一的框架中。具体来说,给定一个目标网络,我们构建一个用于训练的多分支网络,其中每个分支被称为对等体。我们对对等体的输入执行多次随机扩增,并使用额外的分类器作为对等体集合教师来组装从对等体输出的特征表示。这有助于将知识从高能力教师传授给同伴,进而进一步优化整体教师。同时,我们使用每个同伴的时间均值模型作为同伴均值教师,在同伴之间协作传递知识,这有助于每个同伴学习更丰富的知识,并有助于优化具有更好泛化能力的更稳定的模型。在CIFAR-10、CIFAR-100和ImageNet上的大量实验表明,所提出的方法显著提高了各种骨干网络的通用性,并优于现有方法。


一、介绍

近年来,深度学习在许多计算机视觉任务中取得了令人难以置信的成功。尽管许多研究侧重于开发更深和/或更宽的网络以提高性能(He等人,2016;Zagoruyko和Komodakis 2016;Xie等人,2017),但这些笨重的网络需要更多的计算资源,这阻碍了它们在资源有限的场景中的部署。为了缓解这一问题,开发了知识蒸馏,以将知识从更强的教师(Hinton、Vinyals和Dean 2015)或在线团队(Lan、Zhu和Gong 2018)转移到更适合部署的学生模型。

传统上,知识蒸馏(KD)需要在第一阶段对高容量教师模型进行预处理,然后在第二阶段将教师的知识转移到较小的学生模型(Hinton,Vinyals,and Dean 2015;Romero et al.2015;Phuong and Lampert 2019)。通过在教师和学生之间调整软预测(Hinton、Vinyals和Dean 2015)或特征表示(Romero等人,2015),学生模型通常显著降低了部署的模型复杂性,但仍然实现了与教师模型相比具有竞争力的准确性。然而,由于教师和学生在两个单独的阶段进行训练,这种传统策略通常需要更多的训练时间和计算成本。

最近的在线知识蒸馏(Lan,Zhu,and Gong,2018;Zhang等人,2018;Chen等人,2020)通过直接优化目标网络,遵循一个阶段的端到端培训方式,缓解了这一限制。在线知识蒸馏通常使用具有共享中间层表示的分层网络(Song和Chai,2018)(图1(a))、多个并行网络(Zhang等人,2018年)(图2(b))或具有在线集合的多分支网络(Lan、Zhu和Gong,2018),而不是对高容量教师进行预培训。尽管这些方法已显示出其优于传统方法,但协作学习和相互学习无法构建在线高容量教师以促进学生的优化,而在线集成忽略了分支之间的协作,其逻辑和阻碍了集成教师的进一步优化。

在这项工作中,我们提出了一种新的用于在线知识提取的对等协作学习(PCL)方法。如图1(d)所示,我们将在线集合和网络协作集成到一个统一的框架中,以充分利用它们来提高在线知识提炼的质量。具体来说,在训练中,我们通过向给定的目标网络添加辅助分支(高级层)来构建多分支网络。我们将每个分支称为“同伴(a peer)”,并为同行协作学习设计两种类型的在线教师,以提高目标网络的通用性。第一位老师,同伴综合教师(peer ensemble teacher),是一个在线高容量模型,它有助于将知识从更强的综合老师中提炼到每个同伴,进而进一步提高综合老师。我们不是使用对等体逻辑求和来构建集合教师(Lan,Zhu,and Gong 2018),而是对对等体的输入执行多次随机扩增,然后使用额外的分类器来组装对等体输出的特征表示,作为对等体集合教师。这种设计有助于学习同伴特征表示之间的区别性信息,并有助于为在线知识蒸馏组装更强的教师。此外,为了生成具有更好泛化能力的更稳定的模型,我们使用第二个老师,即对等平均老师(peer mean teacher),在对等者之间协作提取知识。我们利用每个同伴的时间均值模型来构建能够产生更稳定预测的同伴均值教师,而不是使用相互学习在同伴之间直接提取知识(Zhang等人,2018)。因此,这种设计有助于每个同行学习更丰富的知识,并有助于优化更稳定的模型,更好地推广部署。在测试中,我们使用对等体的时间平均模型进行部署,该模型具有与给定目标网络相同数量的参数,因此部署不需要额外的推理成本。此外,来自对等平均教师的输出特征表示加上额外的分类器可以形成用于部署的高容量集成,以在计算成本较少受限的场景中获得更好的性能。

我们的贡献是:(一)我们提出了一种新的在线知识提取的对等协作学习方法,该方法将在线集合和网络协作集成到一个统一的框架中;(二) 我们通过对对等体的输入执行多次随机扩增,并使用额外的分类器组装从对等体输出的特征表示,来构建对等体集成教师。这有助于同时优化同行和整体教师的在线知识提炼。(三) 我们利用每个同伴的时间均值模型来构建同伴协作蒸馏的同伴均值教师,从而得到一个更稳定的模型,具有更好的泛化能力;(四) 使用各种骨干网络对CIFAR-10(Krizhevsky和Hinton 2009)、CIFAR-100(Krizhev sky和Hinton2009)和ImageNet(Russakovsky等人2015)进行的大量实验表明,所提出的方法显著提高了骨干网络的通用性,并优于最先进的替代方法。
在这里插入图片描述
图1:比较四种在线知识提炼机制:(a)协作学习。(b) 相互学习。(c) 在线集合。(d) 同伴协作学习(建议)。我们的方法将两种类型的对等协作(即对等集成教师和对等平均教师)集成到一个统一的框架中,以提高在线知识提炼的质量。

二、相关工作

传统知识蒸馏(Hinton、Vinyals和Dean 2015)是将繁琐的模型或模型集合压缩为更小的模型进行部署的最有效的解决方案之一。在(Hinton,Vinyals,and Dean 2015)中,Hinton、Vinyals和Dean建议将知识从高容量教师模型提炼到紧凑的学生模型,这是通过在教师和学生之间调整软输出预测来实现的。近年来,已经设计了许多有前途的方法来传递各种“知识”,例如中间表示(Romero等人,2015)、层间流动(Yim等人,2017)、注意力图(Zagoruyko和Komodakis 2017)、结构关系(Park等人,2019)和活化相似性(Tung和Mori 2019),以促进蒸馏的优化过程。尽管这些方法在压缩模型方面表现出了竞争力,但它们通常遵循两阶段训练解决方案,即预先训练高容量教师模型,以将知识转移到紧凑的学生模型,这需要更多的训练时间和计算成本。

在线知识蒸馏(Lan,Zhu,and Gong 2018;Chen et al.2020;Zhang et al.2018)提出,通过在多个网络或分支中提取知识,直接优化目标网络,而无需对高能力教师进行预培训,这遵循一个阶段的端到端培训策略。由于在线KD直接优化了目标网络,因此无需存储或下载教师模型,这节省了时间和计算成本。在(Song and Chai 2018)中,Song和Chai提出在分层网络的多个分类器头部之间提取知识,以改进目标网络的泛化。在(Zhang等人,2018)中,Zhang等人介绍了一种相互学习解决方案,以在具有相同输入的多个并行网络之间提取知识。尽管这些方法有助于提高目标网络的通用性,但它们只在并行网络或头部之间提取有限的知识,无法构建一个更强大的在线教师来进一步提高学生。在(Guo等人,2020)中,Guo等人使用多个并行网络,并基于交叉熵损失从所有学生网络中聚合逻辑,以生成用于在线蒸馏的软目标。与我们的工作更为相似的是,兰、朱和龚(兰、朱、龚2018)使用多分支网络,并将来自多个分支(学生)的逻辑集合为老师,以提高每个学生的综合能力。然而,logit聚合阻碍了集成教师的进一步优化,在线集成忽略了分支之间的协作,导致了次优性能。在(Kim等人,2020)中,Kim等人将多个分支的特征表示集成到在线集合中,但他们的方法需要更多的卷积运算来进行特征融合,也无法利用分支之间的协作。为了解决这些局限性,在我们的工作中:(1)我们将来自同伴的特征表示与作为同伴集合教师的附加分类器进行组合,这有助于从在线高容量教师向每个同伴(学生)提取知识,进而进一步优化教师;(2) 我们利用每个同伴的时间均值模型作为同伴均值教师来提取同伴之间的知识,这有助于每个同伴学习更丰富的知识,并有助于优化更稳定的模型。将这两位教师整合到一个统一的框架中,可以显著提高每个同伴和团队的综合能力,从而提高绩效。

神经网络集成是提高模型泛化性能的一种简单有效的解决方案(Hansen和Salamon,1990;Zhou、Wu和Tang,2002;Moghimi等人,2016)。尽管这通常可以带来更好的性能,但训练多个神经网络以创建集成需要显著更多的训练时间和计算成本。神经网络集成的最新趋势集中在训练单个模型和利用模型的不同训练阶段作为集成。在(Huang等人2017a)中,Huang等人强迫模型访问多个局部极小值,并将相应的模型用作神经网络集合的快照。在(Laine and Aila 2017)中,Laine和Aila建议使用多个训练时期的网络预测的时间集合作为教师,以促进半监督学习的当前模型的优化。我们的工作与这些工作的不同之处在于,我们使用来自多分支网络的对等体的特征表示,并使用额外的分类器作为集成教师进行在线知识提取,而不是使用来自不同阶段的网络预测或生成多个网络进行集成。在我们的方法中,同伴平均教师与传统平均教师具有相同的优点(Tarvainen和Valpola 2017)。在(Tarvainen和Valpola 2017)中,作为一名教师,对先前训练时期的网络权重进行聚合,以最小化学生和教师之间的预测距离,作为半监督学习的一致性规则。相比之下,我们的方法使用共享的低层和多个分离的高层来构建多个对等平均教师,以对齐对等者与其对等者的平均教师之间的软预测分布,从而产生一个更稳定的模型来提高在线知识蒸馏的质量。
在这里插入图片描述
图2:用于在线知识提炼的对等协作学习(PCL)概述。

三、同伴协作学习(Peer Collaborative Learning)

3.1 方法概述

所提出的对等协作学习(PCL)的概述如图2所示。我们使用 m m m分支网络进行模型训练,并将每个分支称为“a peer”。由于跨不同分支的低层通常包含关于图像小细节的类似低层特征,因此共享它们可以降低培训成本并改善同行之间的协作(Lan、Zhu和Gong 2018)。因此,我们在m分支网络中共享低层并分离高层。

如图2所示,为了促进在线知识提取,我们将对等体的特征表示与作为peer ensemble teacher的附加分类器进行组合,并使用每个对等体的时间均值模型作为peer mean teacher。PCL的训练优化目标包含三个部分:第一个部分是对等体( L c e p \mathcal{L}^p_{ce} Lcep)和对等体集成教师( L c e t \mathcal{L}^t_{ce} Lcet)分类的标准交叉熵损失;第二个组成部分是将知识从更强的教师转移到学生的同伴集体教师蒸馏损失 L p e \mathcal{L}_{pe} Lpe,这反过来进一步提高了集体教师;第三个组成部分是同伴平均教师蒸馏损失 L p m \mathcal{L}_{pm} Lpm,用于在同伴之间协作蒸馏知识。因此,总体目标 L \mathcal{L} L被表述为:
在这里插入图片描述
在测试中,我们使用对等体的时间平均模型进行部署,该模型具有与主干网络相同数量的参数,因此部署不需要额外的推理成本。在计算成本较低的场景中,来自对等平均教师的特征表示加上额外的分类器可以形成用于部署的集成模型,以获得更好的性能。

3.2 同伴合奏教师(Peer Ensemble Teacher)

对等体的输入增强(Input Augmentation for Peers)。假设一个训练数据集中有 n n n个样本 ( x i , y i ) i = 1 n {(x_i,y_i)}^n_{i=1} (xiyi)i=1n,其中 x i x_i xi是第 i i i个输入样本, y i ∈ 1 , 2 , … , C y_i∈{1,2,…,C} yi12C是相应的标签, C C C是数据集中的类数 ( C ≤ n ) (C≤n) Cn。现有的多分支在线蒸馏方法(Lan,Zhu,and Gong 2018;Chen et al.2020)直接使用 x i x_i xi(应用一次随机增强)作为所有分支的输入,这会导致对等点之间的同质化,并减少网络的泛化。为了缓解这个问题,我们对 x i x_i xi进行了 m m m次随机增强,以生成 m m m x i x_i xi对应项(即 x i 1 , x i 2 , … , x i m {x^1_i,x^2_i,…,x^m_i} xi1xi2xim),并将每个对应项用作每个对等项的输入。这种随机增强方式类似于(Laine和Aila 2017),但我们作为多分支网络中的集成教师,多次执行该方法来组装区别特征,而不是生成一致性规则化或蒸馏的两个预测。

在线Ensembling(Online Ensembling)。为了构建一个更强大的在线教师来进行在线知识提炼,来自多个网络/分支的逻辑通常是聚合的(w/ 或 w/o attention gates)(Lan,Zhu和Gong 2018;Chen等人2020)。然而,这阻碍了集成教师进一步优化集成模型,并忽略了对等体的特征表示之间的区别信息,这可能会导致次优解决方案,因为没有进一步学习logit求和。在我们的工作中,我们连接了从同伴输出的特征,并使用额外的完全连接层进行分类,以构建一个可学习的更强的在线教师。因此,对同伴和整体教师进行多类分类,如下所示:
在这里插入图片描述
其中 z j , c p z^p_{j,c} zj,cp是来自 c c c类上第 j j j个对等体最后一个完全连接层的输出logit, y c y_c yc是地面真值标签指示符, z c t z^t_c zct是来自 c c c级上对等体集合教师的完全连接层输出logit。

然后,为了将知识从集合教师转移到每个同伴,我们计算第 j j j个同伴和集合教师的软预测如下:
在这里插入图片描述
其中 T T T是温度参数(Hinton、Vinyals和Dean 2015), p j , c p p^p_{j,c} pj,cp是第 j j j个同伴对 c c c类的软预测, p c t p^t_c pct是集合老师对 c c c类进行的软预测。使用Kullback-Leibler(KL)散度,同伴集合蒸馏损失 L p e L_{pe} Lpe公式化为:
在这里插入图片描述
其中 T 2 T^2 T2确保地面真实性和教师概率分布的贡献大致保持不变(Hinton、Vinyals和Dean 2015), e e e是当前的训练时期, ω ( ⋅ ) ω(·) ω()是权重提升函数(Laine和Aila 2017),稳定模型训练,其定义为:
在这里插入图片描述
其中, α α α是斜升函数的历元阈值, λ λ λ是加权梯度幅度的参数。

Remarks:所提出的peer ensemble teacher与现有的特征融合(Hou,Liu,and Wang 2017;Kim等人2020;Chen,Zhu,and Gong 2017)的不同之处在于,我们通过对同伴的输入执行多次随机扩增,并使用额外的分类器组装来自多分支网络的同伴的特征表示,而不使用额外的卷积运算或多个网络。这有助于有效地将知识从一个更强的集体教师中提炼到每个同伴,进而进一步提高集体教师的水平。

3.2 平均对等教师(Peer Mean Teacher)

在线集合有助于构建一个更强大的在线知识提炼教师,但它忽略了同行之间的协作。另一方面,相互学习(Zhang et al.2018)和协作学习(Song and Chai 2018)受益于网络或头部之间的相互蒸馏,但它们未能构建一个高容量的在线蒸馏教师。在我们的工作中,我们进一步使用同行相互蒸馏来改善同行之间的协作。我们使用每个同伴的时间均值模型(Tarvainen和Valpola 2017)作为同伴协作蒸馏的同伴均值教师,而不是直接在同伴之间提取知识。我们将共享的低层的权重表示为 θ l θ_l θl,将第 j j j个对等体的分离的高层的权重称为 θ h , j θ_{h,j} θh,j。在第 g g g个全局训练步骤1中,第 j j j个对等平均教师 { θ l , g t , θ h , j , g t } \{θ^t_{l,g},θ^t_{h,j,g}\} {θl,gt,θh,j,gt}被公式化为:
在这里插入图片描述
其中, θ l , g t θ^t_{l,g} θl,gt是对等平均教师的共享低层的权重, θ h , j , g t θ^t_{h,j,g} θh,j,gt是第 j j j个对等平均教师分离的高层的权重, ϕ ( g ) \phi(g) ϕ(g)是平滑系数函数,定义为:
在这里插入图片描述
其中 β β β是平滑系数超参数。注意,peer ensemble teacher的附加分类器也被聚合用于集成部署。我们使用该平均教师的输出logit z l , c m t z^{mt}_{l,c} zl,cmt计算第 j j j个平均教师在 c c c类上的软预测 p j , c m t p^{mt}_{j,c} pj,cmt,如等式(4)所示。因此,同行平均教师蒸馏损失 L p m L_{pm} Lpm公式为:
在这里插入图片描述
附注:传统的平均老师用于半监督/无监督学习(Tarvainen和V alpola 2017;Mittal、Tatarchenko和Brox 2019;Ge、Chen和Li 2020),这主要迫使模型预测之间的距离接近。相反,我们使用多分支网络中每个对等体的时间均值模型作为对等体均值教师,并通过调整对等体与其对等体均值老师之间的软分布,将其用于对等体协作蒸馏。与同伴之间的相互蒸馏相比(Zhang等人,2018),在训练时间段内对模型权重进行时间平均,使同伴均值教师能够稳定软预测,以改善同伴协作并生成更稳定的网络。

总结:如算法1所示,PCL遵循单阶段训练方式,而不预先训练高容量教师。在测试中,我们使用单个对等均值模型作为目标模型(PCL),而不增加额外的推理成本。此外,对等平均教师的集合(具有附加分类器)可以用作高容量集合(PCL-E)。

四、实验

数据集。我们使用了三个图像分类基准进行评估:(1)CIF AR-10(Krizhevsky和Hinton 2009)包含10个类别中的60000个图像,每个类别包含5000个训练图像和1000个测试图像。(2) CIF AR100(Krizhevsky和Hinton 2009)由100个班的60000张图像组成,每个班有500张训练图像和100张测试图像。(3) ImageNet ILSVRC 2012(Russakovsky等人,2015)包含1000个类别中的120万张训练图像和50000张验证图像。

实施细节。为了验证我们方法的有效性,我们使用了多种骨干网络,包括ResNet(He等人,2016)、VGG(Simonyan和Zisserman,2015)、DenseNet(Huang等人,2017b)、WRN(Zagoruyko和Komodakis,2016)和ResNeXt(Xie等人,2017)。随后(Lan、Zhu和Gong 2018),每个主干网络的最后一个块与参数共享分离(在ImageNet上,最后两个块被分离),而其他低层被共享。我们在多分支架构中设置了 m = 3 m=3 m=3个对等点。我们在训练中使用标准随机裁剪和水平翻转进行随机增强,而在测试中不使用随机增强。我们使用SGD作为Nesterov动量 0.9 0.9 0.9和重量衰减 5 e − 4 5e-4 5e4的优化器。我们在CIFAR-10/100上训练了 E p o c h m a x = 300 Epochmax=300 Epochmax=300个时代,在ImageNet上训练了90个时代。我们将初始学习率设置为 0.1 0.1 0.1,在CIFAR10/100上的 150225 {150225} 150225个时期和ImageNet上的{3060}个时期,初始学习率衰减为 0.010.001 {0.010.001} 0.010.001。我们将批量大小设置为128,温度 T = 3 T=3 T=3 α = 80 α=80 α=80用于斜升加权, β = 0.999 β=0.999 β=0.999用于学习时间平均模型, λ = 1.0 λ=1.0 λ=1.0用于CIFAR-10/100, λ = 0.1 λ=0.1 λ=0.1用于ImageNet。默认情况下,在PCL中,我们使用第一个分支作为目标网络。我们的模型使用Python 3.6和PyTorch 0.4实现,并在TESLA V100 GPU(32GB)上训练。

评估指标。我们使用了排名前1的分类错误率( % \% %),并报告了3次运行的平均结果和标准偏差。
在这里插入图片描述
算法1:在线KD的同伴协作学习。

4.1 与State-of-the-Arts的比较

Competitors。我们将PCL与骨干网络(基线)和六个在线KD最新技术(DML(Zhang等人,2018)、CL(Song和Chai 2018)、ONE(Lan、Zhu和Gong 2018)、FFL-S(Kim等人,2020)、OKDDip(Chen等人。

2020)、KDCL(-Naive)(Guo等人,2020))。

Setting:为了公平比较,以下(Lan、Zhu和Gong 2018),我们在比较方法中使用了三个分支架构(ONE、CL、FFL-S、OKDDip和PCL),除非它们必须与基于网络的架构(DML和KDCL中的三个并行网络)一起使用。这里,虽然基于网络的OKDDip通常比基于分支的OKDDip产生更好的性能,但是前者使用更多的参数进行训练,因此我们使用了基于分支的OKDDip。

Results:如表1所示,所提出的PCL在CIFAR-10和CIFAR-100上分别将各种骨干网络(基线)的性能提高了约 1 % 1\% 1% 2 % 2\% 2%。这表明了PCL在提高各种骨干网络的通用性能方面的有效性。与最先进的在线蒸馏方法相比,在CIFAR-10和CIFAR-100上,PCL实现了最佳的前1错误率。例如,在CIFAR-10上,PCL使用ResNet-32和ResNet-110分别将现有技术水平提高了约 0.1 % 0.1\% 0.1% 0.3 % 0.3\% 0.3%;在CIFAR-100上,PCL使用ResNet-32和ResNet-110分别将现有技术水平提高了约 0.3 % 0.3\% 0.3% 1.1 % 1.1\% 1.1%。这些改进归因于将同伴平均教师和同伴整体教师整合到一个统一的框架中。当扩展到大规模ImageNet基准时,如表1所示,PCL使用ResNet-18将基线提高了约 0.9 % 0.9\% 0.9%。与最先进的替代方法相比,PCL仍然实现了具有竞争力的前1错误率(ResNet-18的错误率约为 29.6 % 29.6\% 29.6%)。

Discussion:这些结果显示了PCL对于在线KD的性能优势。注意,对于对等集成教师和对等平均教师,PCL需要额外的计算成本,但:(1)PCL的推理成本与目标主干相同,因为我们只使用单个对等平均模型作为测试的目标模型;(2) 用等式(7)更新对等平均教师,无需进行反向传播(Tarvainen和V alpola 2017);(3) 对等集成教师是一个多分支模型,额外的计算成本主要是训练额外的分类器。
在这里插入图片描述
表1:CIFAR-10、CIFAR-100和ImageNet的最新技术对比。报告了前1位错误率(%)。ResNeXt29:ResNeXt29-2×64d。所有方法的实施主要基于1和2。†:报告结果为29.45±0.23。
在这里插入图片描述
表2:CIFAR-100上ResNet110的组件有效性评估。前1位错误率(%)。同伴合奏老师。P.M.:平均水平的老师。
在这里插入图片描述
图3:在CIFAR-100上使用ResNet-110进行培训和测试期间的组件有效性比较。

4.2 组件有效性评估(Component Effectiveness Evaluation)

从表2中,我们可以看到:(1)在所有组件中,PCL(完整模型)都取得了最佳结果,证明了将同伴综合教师和同伴平均教师集成到在线KD的统一框架中的有效性。(2) Backbone+Lpce+Lce+Lpe显著提高了Backbone约2.6%的性能,显示了同伴合奏教师的有效性。(3) PCL(全模型)将主干+Lpce+Lce+Lpe提高了约 1.1 % 1.1\% 1.1%,这表明了对等平均教师的有效性。(4) 用一些当代变体替换P.E.或P.M.会导致性能下降,这表明了所提出的PCL的优越性。此外,从图3中,我们可以看到具有所有成分的PCL(红色曲线)得到更好的泛化。有趣的是,PCL(全模型)的测试前1错误率(红色曲线)从0到50个时期迅速下降,然后逐渐达到最佳值;相比之下,其他方法( w / o L p m w/o Lpm w/oLpm)波动剧烈,尤其是从0到225个时期。这表明了同伴平均教师对于在同伴中学习更丰富的知识和优化更稳定的模型的重要性。

4.3 集成效能评估(Ensemble Effectiveness Evaluation)

我们将PCL-E与三个在线KD集合进行了比较:ONE-E(所有分支的集合)(Lan、Zhu和Gong 2018)、FFL(融合集合的FFL-S)(Kim等人2020)和OKDDip-E(同行集合)(Chen等人2020)。如表3所示,PCL-E在CIFAR-10和CIFAR-100上分别将现有技术水平提高了约 0.3 % 0.3\% 0.3% 0.6 % 0.6\% 0.6%。此外,与ONE-E(具有最少模型参数的替代方法)相比,PCL-E实现了显著更好的性能,但仅将CIFAR-10和CIFAR-100上的ResNet110的模型参数数量分别增加了0.01M和0.08M。

4.4 在线嵌入分析中的对等方差(Peer Variance for Online Ensembling Analysis)

在图4中,我们分析了训练阶段在线集合的对等(分支)方差。这里,我们计算每两个分支的预测之间的平均欧几里德距离作为分支分集,并使用m个分支的平均分集作为分支方差。从图4中,我们可以看到:(1)从0到150个时期,PCL-E的前1精度飙升到高水平,优于其他方法,同时,PCL的分支方差(PCL-BranV-ar)大于其他方法。这表明,在早期阶段,尽管模型的泛化能力较差,但PCL中的每个分支都更好地协作,以促进在线知识提炼。(2) 从150到300个时期,PCL-E的前1精度仍然优于备选方案,而PCL的分支方差变得小于备选方案。主要原因是,在这个阶段,每个对等体的泛化能力显著提高,并且每个对等体在时间上聚合的模型变得稳定(具有准确和相似的预测)。这也导致更强的总体模型(见表3)和更通用的目标模型(见图1)。
在这里插入图片描述
表3:在CIFAR-10/100上使用ResNet-110进行集成效能评估。报告了前1位错误率(%)和模型参数的数量。
在这里插入图片描述
图4:CIFAR-100上ResNet-110在线集合分析的对等方差-BranVar’:分支方差。在这里,我们使用最高的精度来更好地可视化。

4.5 进一步分析和讨论(Further Analysis and Discussion)

与Two-Stage Distillation的比较。在表4中,我们将PCL与传统的两阶段KD进行了比较(Hinton、Vinyals和Dean 2015)。我们可以看到,虽然PCL没有预训练高容量教师模型(例如ResNet-110),但它仍然比两阶段KD获得更好的性能。这归因于将同行综合教师和同行平均教师整合到在线知识提炼的统一框架中。

分行编号(Branch Number)。如图5(a)所示,当使用更多分支时,PCL的性能会提高。在四分支设置中,PCL(19.8%)仍然与OKDDip(21.1%,如中所述(Chen等人,2020))相比具有竞争力。

输入增强(Input Augmentation)。如图5(b)所示,在不使用多输入增强(PCL w/o InAu)的情况下,PCL的性能会降低(约0.7%),但仍能实现令人信服的性能。这进一步验证了PCL中模型设计的有效性。
在这里插入图片描述
表4:与CIFAR-10/100上的ResNet-32两级蒸馏的比较。前1名错误率(%)†:使用ResNet-110作为教师模型。
在这里插入图片描述
图5:评估(a)不同数量的分支和(b)在CIFAR-100上使用ResNet110对PCL的输入增强的影响。

五、结论

在这项工作中,我们提出了一种用于在线知识提取的新的对等协作学习(PCL)方法,该方法将在线集合和网络协作集成到一个统一的框架中。我们将来自对等体的特征表示作为在线高容量对等体集成教师,并使用每个对等体的时间平均模型作为对等体平均教师。这样做可以提高在线知识提炼的质量,以一种端到端可培训的方式。在各种骨干网络上的大量实验表明,与CIFAR10、CIFAR-100和ImageNet上的最先进方法相比,所提出的方法具有优势。


参考文献

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值