突破学习的界限:类增量学习中稳定性与可塑性的新探索------CVPR2023论文解读

1. 引言

  • 深度学习的成功与挑战:尽管深度学习在多个领域取得了巨大成功,但大多数深度神经网络在实际应用中通常是静态的,不能适应数据的变化、训练环境的变化或领域的转移。为了应对这些挑战,研究人员积极探索模型适应性技术,提出了各种持续学习方法。
  • 持续学习与类增量学习(CIL):在持续学习中,一种简单的方法是微调模型,但这种方法由于神经网络的高度可塑性(易于适应新数据,但可能导致遗忘旧知识)而效果不佳。这就引出了稳定性-可塑性困境:如何在模型中平衡稳定性和可塑性,使其能够学习新概念的同时保留旧概念?本文专注于类增量学习(CIL),一种特定的持续学习子领域,其中新的类别集合以在线方式到来。
  • 稳定性-可塑性困境的探究:大多数现有的CIL模型倾向于稳定性而非可塑性。这项研究旨在通过分析工具(如中心核对齐(CKA)和t-SNE可视化)来探索如何在特征表示层面有效地平衡稳定性和可塑性。分析结果表明,大多数CIL算法的特征表示在增量阶段几乎没有新知识的积累,意味着这些模型在保持稳定性的同时牺牲了可塑性。
  • 提出新方法:基于这些观察,论文提出了两种新的CIL算法——Partial-DER和Exploit,旨在改善类增量学习的性能。
  • 研究贡献:这篇论文的主要贡献在于设计和进行了分析实验,以更好地理解现代持续学习模型中稳定性与可塑性的平衡;发现大多数CIL模型的特征表示只在增量数据训练时进行微小的更新;并介绍了两种简单但有效的CIL算法,这些算法是由我们的分析结果启发的。

2. 类增量学习的稳定性-可塑性困境

  • 稳定性与可塑性的定义
    • 稳定性:能够保留先前学到的知识。
    • 可塑性:能够从新的类别中学习概念。
  • 持续学习的挑战:在持续学习过程中,一个核心挑战是如何在稳定性和可塑性之间找到平衡。这就是所谓的稳定性-可塑性困境。理想情况下,一个模型应该同时具备足够的稳定性以保留旧知识,同时又有足够的可塑性以学习新概念。
  • 类增量学习(CIL):在类增量学习中,新的类别集合以在线方式到来,这要求模型能够不断适应新的类别,同时还要保留对旧类别的知识。
  • 论文研究动机:大多数现有的CIL模型倾向于稳定性而非可塑性。这项研究旨在通过分析工具(如中心核对齐(CKA)和t-SNE可视化)来探索如何在特征表示层面有效地平衡稳定性和可塑性。
  • 分析方法和结果
    • 研究者使用CKA分析特征表示的相似性,发现大多数CIL模型的特征表示在增量阶段几乎没有新知识的积累。
    • 通过t-SNE可视化,研究者发现这些模型的特征表示在增量学习过程中保持高度相似,这表明它们在保持稳定性的同时牺牲了可塑性。
  • 研究影响:这些发现不仅揭示了当前类增量学习方法的局限性,也为未来改进CIL算法提供了重要的洞见。特别是,这些发现突出了在设计CIL模型时需要更多关注特征表示的持续学习。

3. 特征表示的再评估

  • 研究方法

    • 论文中的研究使用了ImageNet-1K数据集,以及多种类增量学习(CIL)算法,包括iCaRL、POD、DER等,以探索特征表示的稳定性和可塑性。
    • 通过重新训练分类器层,分析了各种CIL模型在不同增量阶段的特征提取能力。
  • 发现和观察

    • 许多CIL模型的特征表示在增量阶段几乎没有积累新知识,表明这些模型更倾向于稳定性。
    • 通过中心核对齐(CKA)分析和t-SNE可视化,研究表明,大部分模型的特征表示在增量学习过程中保持高度相似,进一步证明了它们在保持稳定性的同时牺牲了可塑性。

    CKA分析:该分析用于衡量特征表示之间的相似性。例如,对于固定特征提取器DER (0)和其他特征提取器DER (1∼5),观察到DER (0)具有最高的CKA值,而DER (1∼5)的CKA值明显较低。这表明在增量阶段,大多数特征表示只经历微小的更新。
    1.CKA(中心核对齐)分析的详细过程包括以下几个步骤和公式:
    2.创建Gram矩阵:首先,对于给定的两组特征表示X和Y,计算它们的Gram矩阵K和L。这些Gram矩阵是通过计算特征表示之间的内积得到的,即 K = X X T K = XX^T K=XXT L = Y Y T L = YY^T L=YYT
    3.中心化Gram矩阵:接下来,对Gram矩阵K和L进行中心化处理,以消除数据的平均值对结果的影响。
    4.计算希尔伯特-施密特独立性准则(HSIC):使用向量化操作(vec(·))对中心化后的Gram矩阵进行处理,然后计算HSIC值。HSIC的计算公式为:
    HSIC ( K , L ) = vec ( K ) ⋅ vec ( L ) ( b − 1 ) 2 \text{HSIC}(K, L) = \frac{\text{vec}(K) \cdot \text{vec}(L)}{(b - 1)^2} HSIC(K,L)=(b1)2vec(K)vec(L)
    其中vec(·)表示向量化操作,b是输入样本的数量。
    5.CKA的最终计算:最后,CKA通过对HSIC进行标准化来计算两组特征表示之间的相似度。CKA的计算公式为:
    CKA ( X Y ) = HSIC ( X X , Y Y ) HSIC ( X X , X X ) HSIC ( Y Y , Y Y ) \text{CKA}(XY) = \frac{\text{HSIC}(XX, YY)}{\sqrt{\text{HSIC}(XX, XX) \text{HSIC}(YY, YY)}} CKA(XY)=HSIC(XX,XX)HSIC(YY,YY) HSIC(XX,YY)
    这里,CKA是一个标准化的度量,表示两个b×b的Gram矩阵K和L的相似度。由于Gram矩阵本身反映了样本对之间的特征关系,因此CKA可以被解释为X和Y中特征之间关系的相似度。
    通过这种方法,CKA分析提供了一种有效的方式来比较和量化不同神经网络表示之间的相似度,特别是在类增量学习的背景下,用于分析特征提取器在训练过程中的稳定性和可塑性。
    在这里插入图片描述

    t-SNE可视化:论文中使用t-SNE可视化来进一步证实CKA分析的观察结果。研究者从C5中随机选取5个类别,每个类别选取20张图片,计算每张图片使用F0和F5的特征表示,然后在单个t-SNE图中可视化所有200个特征。图4展示了Naive和Oracle特征提取器以及四种展示高稳定性的CIL算法的t-SNE图。图中每种颜色代表一个不同的类别,F0和F5的特征分别用圆形和星形表示。

    在这里插入图片描述

  • 实验结果的影响

    • 这些发现揭示了当前CIL方法在特征表示层面的局限性,指出了特征表示的可塑性在类增量学习中的重要性。
    • 研究还提出,为了实现有效的CIL,未来的算法设计应更加注重于特征表示的持续学习和适应性。

4. 改善类增量学习

Dynamically Expandable Representations (DER) 的详细过程

  1. 新特征提取器的添加:在每个增量学习阶段,DER添加一个新的特征提取器。
  2. 保持旧特征提取器:对于在旧数据上训练的特征提取器,它们被保留且不进行更新,而新的特征提取器则会被更新。
  3. 特征提取器的输出组合:在任何阶段 i,所有 i+1 个特征提取器的输出在通过分类层之前会被合并(concatenated)。

举个例子:

在一个类增量学习(CIL)的应用中,假设使用ImageNet-B500数据集,我们设定一个5步骤的学习过程。对于DER方法,每当引入一个新的类别集合时(在每个步骤中),我们会添加一个新的特征提取器。这意味着:

  1. 第一步骤:引入第一组类别,使用一个特征提取器(例如,ResNet-18)来学习这些类别。
  2. 随后的步骤:每添加一个新的类别集合,就添加一个新的特征提取器。在5步骤的设置中,到最后一个阶段,DER模型将维护6个完整的ResNet-18模型。
  3. 处理输入:对于任何给定的输入,必须通过所有的特征提取器,然后通过分类层进行分类。
  4. 计算开销:随着步骤的增加,所需维护的特征提取器数量也增加,这对计算资源和时间的需求产生显著的影响。例如,在10步骤的设置中,DER将维护11个完整的ResNet-18模型。

Partial-DER (pDER)

是Dynamically Expandable Representations (DER)的一种改进版本,旨在解决DER的可扩展性和计算效率问题。以下是pDER的详细过程:

  1. 基于DER的原理:在每个增量学习阶段,DER添加一个新的特征提取器,并保留在旧数据上训练的特征提取器不变。所有特征提取器的输出在通过分类层之前被合并。

  2. 观察下层特征的稳定性:根据CKA分析,即使在完全可塑性的模型中,网络的下层特征表示在不同阶段的特征提取器(如F0和F5)之间也保持高度相似。这表明下层特征在本质上是稳定的。

  3. 实施pDER的关键改进

    • 固定下层子集:pDER不为每个增量步骤保留完整的特征提取器,而是固定F0中的下层子集,并仅在上层子集上应用DER。
    • 选择特定层应用DER:具体来说,pDER将ResNet的Layer 4之前的所有层视为下层子集,并仅在Layer 4上应用DER。
  4. 计算效率提升:这种简化方法显著减少了通过DER模型的单次前向传递的计算量(如减少了高达65%的GMACs),同时提高了模型的准确率(如Acc(M5 D)和Acc(M5D)分别提高了1.5个百分点和0.9个百分点)。

通过这种方式,pDER成功地解决了DER在处理更多增量学习步骤时面临的计算资源和时间的挑战,同时保持了对旧类别知识的稳定性和对新类别的有效学习能力。

Exploit方法

  1. 观察静态特征提取器:Exploit方法基于这样一个观察,即在多数类增量学习(CIL)模型中,特征提取器在增量学习阶段保持静态。这意味着即使随着时间的推移添加了新的数据和类别,这些特征提取器的特征表示几乎没有变化。
  2. 冻结基础特征提取器:基于上述观察,Exploit方法通过冻结基础特征提取器F0,来改进训练效率。冻结特征提取器意味着在增量学习过程中,该提取器不会根据新数据进行更新,从而保持其原始状态。
  3. 优化训练和性能:由于不需要对特征提取器进行更新,Exploit方法显著提高了训练效率,并在一定程度上减少了对之前类别样本(exemplars)的依赖。这使得模型能够在保持较低计算成本的同时,实现强大的性能。
  4. 与pDER的关联:Exploit可以被看作是partial-DER(pDER)方法的一种极端形式。在pDER中,只有特征提取器的上层子集被应用DER,而在Exploit中,整个基础特征提取器被完全冻结,只有分类层进行更新。
  5. 计算复杂度降低:这种方法减少了模型在增量学习阶段的计算复杂度。例如,通过避免在每个增量阶段更新整个特征提取器网络,可以显著降低所需的计算资源。

Dynamically Expandable Representations (DER) ,Partial-DER (pDER),Exploit这三种方法的区别和共同点

Dynamically Expandable Representations (DER)、Partial-DER (pDER) 和 Exploit 是类增量学习(CIL)领域的三种方法,它们各自有独特的特点和一些共同之处。以下是它们的区别和共同点:

DER (Dynamically Expandable Representations)

  1. 概念:在每个增量学习阶段添加一个新的特征提取器。
  2. 操作:旧的特征提取器保持不变,新的特征提取器根据新增加的数据进行训练。
  3. 特点:能够有效地学习新类别,同时保持对旧类别的知识。
  4. 缺点:随着增量阶段的增加,需要维护的特征提取器数量增加,导致计算量和存储需求显著增加。

Partial-DER (pDER)

  1. 概念:是DER的改进版本,旨在解决DER的可扩展性问题。
  2. 操作:固定网络的下层子集,并仅在上层子集上应用DER。
  3. 特点:通过这种方法,减少了计算资源的需求,同时保持了对新老类别的有效学习。
  4. 改进:降低了通过模型的单次前向传递的计算量,提高了训练和推理效率。

Exploit

  1. 概念:基于观察到大多数CIL模型中的特征提取器在增量学习阶段保持静态。
  2. 操作:简单地冻结基础特征提取器F0,不对其进行更新。(意味着在增量学习过程中,始终只使用同一个特征提取器F0,不对其进行任何更新。这种方法是基于观察到在许多类增量学习(CIL))
  3. 特点:显著提高了训练效率,并在一定程度上减少了对之前类别样本的依赖。
  4. 区别:相比于DER和pDER,Exploit方法更极端,完全不更新特征提取器,侧重于利用已有的、未经增量训练的特征提取器。

共同点

  • 目标:所有这三种方法都旨在解决类增量学习中的稳定性-可塑性困境,即如何在保留已学习知识的同时有效地吸收新知识。
  • 基础:它们都在一定程度上依赖于特征提取器,不论是通过添加新的、调整现有的,还是完全冻结特征提取器。
  • 应用场景:适用于那些需要模型在一段时间内逐渐学习新类别或任务的场景,尤其是在数据不断增加的情况下。

5. 讨论

  1. 性能改善度量(∆Mi)

    • 作者定义了一个度量∆Mi,用于衡量随着训练类别的增加,特征提取器Fi相对于F0的性能改善。∆Mi的高正值表明特征提取器能够逐步学习新概念。相反,接近0的∆Mi表示特征提取器稳定但不足以获取新知识。大的负值∆Mi代表特征提取器中的严重灾难性遗忘。

    性能改善度量(∆Mi)的具体计算过程:
    Δ M i = Acc ( M i D ) − Acc ( M 0 D ) \Delta M_i = \text{Acc}(M_i D) - \text{Acc}(M_0 D) ΔMi=Acc(MiD)Acc(M0D)
    这里:

    • Δ M i \Delta M_i ΔMi表示第i个增量阶段的性能改善度量。
    • Acc ( M i D ) \text{Acc}(M_i D) Acc(MiD)是在第i个增量阶段后,模型 M i M_i Mi在数据集D上的准确率。
    • Acc ( M 0 D ) \text{Acc}(M_0 D) Acc(M0D) 是初始模型 M 0 M_0 M0(在任何增量学习之前)在数据集D上的准确率。

    通过这个公式,可以量化模型在经过一系列增量学习步骤后相对于其初始状态的性能变化。如果∆Mi是正值,这表明模型在学习新类别的过程中提高了性能;如果∆Mi是负值,则可能表示模型经历了灾难性遗忘,即在学习新知识的过程中丢失了旧知识。

  2. 持续学习的问题

    • 通过比较不同CIL算法的Acc(M0 D)和Acc(M5 D)值,发现这些算法在减轻灾难性遗忘方面有所作为,但缺乏持续学习的能力,表现出不足的可塑性。这些结果还意味着,如果特征表示无法通过增量数据累积新知识,即使有最优分类器,其性能也会低于Oracle模型7-8个百分点。
  3. 任务相似性的影响

    • 任务相似性被证明会影响神经网络经历的灾难性遗忘程度。尽管如此,研究发现即使任务相似性在各个阶段发生变化,分析得出的结论仍然相同。
  4. 预训练设置的考量

    • 针对是否缺乏可塑性可能归因于实验设置(例如B500-5step,模型在被增量更新前预训练了500个类别),作者认为持续学习者应努力获得更好的特征表示,即使预训练的表示已经足够。此外,预训练的特征提取器与Oracle相比仍有不足,而DER展示了即使缺乏可扩展性,也可以在预训练的特征提取器上持续学习更强的表示。
  5. 传统度量的局限性

    • 对于CIL研究中广泛采用的度量标准,如所有比较的CIL算法的平均增量准确率和ImageNet的最终准确率Acc(M5 D),研究发现尽管Exploit在保持特征提取器F0固定的情况下在这两个度量上表现优异,但所有提及的CIL算法在Acc(M0 D)和Acc(M5 D)分数上表现类似。这表明这些方法的特征表示具有相似的区分度,但在平均增量准确率或Acc(M5 D)方面并未得到充分表达。这提示研究者和实践者需要关注,传统度量可能并不能真实反映模型的持续学习能力。

6. 总结

  1. 关于类增量学习方法的评估:作者对现有的类增量学习(CIL)方法进行了评估,发现许多方法过分专注于减轻灾难性遗忘,以至于在初始训练阶段(D0)之后,特征提取器很少学习到任何新概念。

  2. 引入新算法:基于这一观察,作者引入了两种简单的算法——Exploit和Partial-DER(pDER),旨在改进现有的算法并利用标准CIL评估指标的缺陷。

  3. 未来研究方向:作者希望他们的发现能促进CIL研究更多地关注于强化特征表示的持续学习。

这些结论强调了在类增量学习研究中,特征表示的可塑性和持续学习能力的重要性。作者通过引入新的算法方法,挑战了传统的CIL评估指标,并鼓励未来的研究更加关注于如何有效地平衡稳定性和可塑性,以及如何提升特征表示的质量和学习能力。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

懒惰才能让科技进步

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值