Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning 翻译

Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning (CVPR2022)
模拟Oracle:一种用于类增量学习的初始阶段去相关方法

传送门

paper
code

Abstract

类增量学习(CIL)的目的是逐步学习分类器,在每个阶段只提供一部分类的数据。**以往的研究主要是在初次遗忘之后分阶段缓解遗忘。然而,我们发现,在初始阶段对CIL进行改进也是一个很有前途的方向。**具体来说,我们的实验表明,在初始阶段直接鼓励学习者输出与所有课程联合训练的模型相似的表示,可以极大地提高CIL学习的性能。在此基础上,我们研究了na¨ıvely-trained初始阶段模型与oracle模型之间的差异。具体来说,由于这两个模型之间的一个主要差异是训练类的数量,我们研究这种差异如何影响模型表示。我们发现,当训练类别较少时,每个类别的数据表示都位于一个狭长的区域;随着训练类的增加,每个类的表示形式分布得更加均匀。受此观察的启发,我们提出了类间去相关(CwD),它有效地规范化了每个类的表示,使其更均匀地分散,从而模仿与所有类联合训练的模型(即oracle模型)。我们的CwD实现简单,易于插入到现有方法中。在各种基准数据集上的大量实验表明,CwD持续且显著地提高了现有最先进方法的性能约1%至3%。

1. Introduction

2. Related Works

3. Methodology 方法

在本节中,我们将通过改进初始阶段表示来提高CIL性能。这种策略不同于以往的大多数作品。
首先,在3.1节中,我们研究了通过在初始阶段模仿先知模型表示来改善CIL的潜力。
在第3.2节中,受所做观察的启发,我们对每个类的表示的协方差矩阵进行了特征值分析,以研究用于训练的类的数量如何影响表示。
然后,我们进一步开发了一个新的正则化术语,即3.3节中的类间去相关(CwD)。我们从数学和实验上表明,这个正则化项在强制每个类的数据表示更加均匀地分散方面是有效的

3.1. Directly Mimicking the Oracle Model Repre-sentation at Initial Phase Improves CIL 在初始阶段直接模仿Oracle模型表示可以改善CIL

在这一部分,我们进行了一个探索性的实验,看看是否鼓励CIL学习者在初始阶段直接模仿oracle模型可以提高成绩。具体来说,在CIL初始阶段,我们添加了一个额外的正则化项,以鼓励模型输出类似于oracle模型的表示,产生以下目标函数:
在这里插入图片描述
其中θ是模型参数,θ *是oracle模型的参数(是固定的)。Lce(x, y, θ)是标准交叉熵损失,(x, y)是输入训练数据标签对,β是控制正则化强度的超参数。fθ(x)和fθ * (x)分别表示由CIL学习者和oracle模型产生的表征。这个目标的第二项是使fθ(x)与fθ * (x)相似的正则化。
我们使用ImageNet100和ResNet18[11]对以下两个协议进行实验:(1)对CIL学习者进行50个课程的初始训练,然后每个阶段增加10个课程,再增加5个阶段;(2)先对CIL学习者进行10个阶段的培训,然后每阶段增加10个阶段,再增加9个阶段。在这两个协议下,我们使用Eqn。(1)以LUCIR[12]为强基线作为初始阶段的优化目标。对于以下阶段,不添加任何正则化,并应用原始LUCIR[12]。从图2可以看出,初始阶段的正则化项可以极大地提高CIL的性能。值得注意的是,在第二个协议中,尽管在初始阶段只使用了10个类,但这种规范化仍然带来了显著的改进。此外,在两种方案中,虽然这种正则化只在初始阶段应用,但它对初始阶段精度的提高可以忽略不计,但对后续阶段的性能有显著提高。这将表明,改进并不仅仅是因为初始阶段的准确性提高,而是因为初始阶段模型更有利于增量学习新类。
由于在实践中不能直接使用oracle模型,在下面的部分中,我们将探讨oracle模型表示的特征,并尝试通过模仿该特征来改进CIL。

3.2. Class-wise Representations of Oracle Model Scatter More Uniformly Oracle模型的类级表示更加均匀地分散

在初始阶段模拟oracle模型所产生的显著改进的激励下,我们调查了、初始训练的初始阶段模型和oracle之间的差异。

具体来说,由于oracle模型比na¨ıvely-trained初始阶段模型使用更多的类进行训练,我们进行了特征值分析,以了解用于训练的类的数量如何影响表征。使用ImageNet100,我们生成了包含10/25/50/100类的4个子集,其中包含更多类的子集包含包含更少类的子集(第一个子集的10个类被所有4个子集共享)。我们在每个子集上训练4个ResNet18模型,并分析表示的差异。

我们的特征值分析的细节如下。对于一个给定的类c,假设我们有n个数据点,我们表示Z ©我∈Rd模型输出表示第i类c的数据点,和所有人的平均向量表示的类c表示¯Z © = 1 n Pn我Z = 1 ©。c类表示的协方差矩阵以无偏的方式估计为
在这里插入图片描述
基于c类表示的估计协方差矩阵,我们进行了特征分解K© = UΣ©U >,其中Σ©是一个对角矩阵,其特征值为λ© 1, λ© 2,…, λ© d)在对角线上。在不丧失一般性的情况下,我们假设特征值是按降序排列的。为了观察顶特征值是否占主导地位,我们定义
在这里插入图片描述
它衡量的是由前k个特征值所代表的方差的比例。如果α© k即使k很小也接近1,那么k ©的顶特征值占主导地位。

对于四个模型中的10个共享类中的一个,我们可视化了α© k如何随着k的增加而变化。其他类表示的结果显示了类似的趋势,并在附录中。从图3中可以看出,对于只有10个类训练的模型,当k∈{1,2,…,α© k快速增加。,即10},然后随着k的增加,在接近1的值处饱和。这说明对于10类模型,各类数据表示的协方差矩阵的顶特征值占主导地位,表明数据表示位于一个狭长区域。此外,对于任意固定的k, α© k随着训练类别的增加而严格减小。这说明,当模型训练的类越多,top k特征值的优势就越小,说明每个类的数据表示分布更加均匀。由于oracle模型比na¨ıvely-trained初始阶段模型训练了更多的类,因此oracle模型的类级数据表示分布得更均匀

3.3. Class-wise Decorrelation

第3.2节的观察表明,鼓励CIL学习者在初始阶段模仿oracle模型的一种方法是强制每个类的数据表示形式更加均匀地分散。这可以通过在初始阶段为每个c类添加以下正则化目标来实现:

在这里插入图片描述
其中d为表示空间的维数。最小化这个目标将强制所有特征值接近,防止顶部特征值占主导地位,并鼓励类c的数据表示更均匀地分散。然而,这个正则化目标是不实际的,因为计算特征值是昂贵的
为了以一种实现友好的方式实现我们想要的正则化,我们首先通过
在这里插入图片描述
式中,σ©(Z)∈Rd是所有表示的标准差的向量,以元素方式进行除法。这种归一化的结果是协方差矩阵K©(定义在Eqn。(2)与相关矩阵等价,满足
在这里插入图片描述
式中Tr(·)为矩阵跟踪算子,d为K©的维数。
然后,通过下面的命题,我们可以将相关矩阵的Frobenius范数与其特征值联系起来。

命题1。F或d × d相关矩阵K及其特征值(λ1, λ2,…,我们有:
在这里插入图片描述
这个命题的证明在附录中给出。它表明,对于任何相关矩阵K,最小化在Eqn中定义的Lshape。(4)等价于最小化kKk2F。利用这个命题,我们转换了Eqn中不切实际的正则化。(4)进入下面的类间去相关(CwD)目标,它对每个类c惩罚kK©k2F:

在这里插入图片描述
其中C为初始阶段训练时使用的类数,K©为对训练数据批估计的类C的相关矩阵。注意K©是参数θ通过其特征值λi的函数。

因此,初始阶段的整体优化目标为:
在这里插入图片描述
其中,η是我们的CwD目标的超参数控制强度。算法1给出了一种pytorch风格的CwD正则化伪代码

为了实证验证我们提出的LCwD确实有效地鼓励每个类的表示更加均匀地分散,我们进行了与第3.2节相同的特征值分析。我们使用LCwD进行实验,与第3.2节中的10/25/50类设置相同。由图4可以看出,对于每一个固定k和每一个模型,施加LCwD都能有效地降低α© k,而使用较大的η会使α© k降低得更多。这些观察结果表明,应用LCwD后,各个类别的数据表示更加均匀地分散。

字节跳动智能创作团队多篇论文入选 CVPR 2022_ 字节跳动技术团队的博客-CSDN博客
https://blog.csdn.net/ByteDanceTech/article/details/124161874

Initial Phase Decorrelation Approach for Class Incremental Learning

这篇论文由字节跳动与新加坡国立大学、中科院自动化所、牛津大学合作完成。

本文主要研究了 class incremental learning,即类增量学习。最终的学习目标是希望通过阶段式的学习(phase-by-phase learning)能够得到一个与 joint training 性能匹配的模型。类增量学习最大的挑战即是:在学习完某一阶段的类别之后,模型在之前阶段类别的性能将大大下降。这一现象被称之为 forgetting。

对于一个分为多个阶段的类增量学习过程,我们可以将之分成两个部分,即 initial phase (第一个学习阶段)与 later phase (除第一个学习阶段后面所有的学习阶段)。以往的工作往往都是在 later phase 对模型进行正则化来减轻遗忘,而不对 initial phase 做特殊处理。但是在这篇论文中,作者们发现:initial phase 在类增量学习的过程中同样关键。

作者们通过可视化发现,一个仅在 initial phase 训练得到的模型与 joint training 的 oracle model 输出的表征的最大区别是:initial-phase-model 的 representation 的分布只会集中在 representation space 的一个狭长的区域(即一个维度较低的子空间),而 oracle model 的 representation 将较为均匀的分布于各个方向(即一个维度相对较高的子空间)。这一结果如图(a)(b)所示。
在这里插入图片描述
基于这一发现,作者们提出了一个新颖的正则项:Class-wise Decorrelation (CwD)。这一正则项只作用于 initial phase 的训练过程,目的是使得 initial phase 学习得到的模型的 representation 在空间中的分布能够在各个方向更加均匀,从而能够与 oracle model 更加相似。这一结果如图(c)所示。

作者们发现 CwD 正则项能够对以往的 state-of-the-arts 的类增量学习方法有显著的提升 (1%~ 3%)。希望通过这一工作,能够让科研社区同仁更了解 initial phase 在类增量学习中的意义,从而更加关注如何在 initial phase 提升类增量学习。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值