CVPR 2025 | 南大提出DUCT方法:用双重知识巩固抵抗持续学习中的灾难性遗忘

在持续学习问题中,域增量学习(Domain-Incremental Learning, DIL)是一个重要的研究方向。它要求模型能够逐步适应不同领域的新概念,同时避免遗忘之前学到的知识。

然而,现有的预训练模型在适应新领域时,往往会遭遇“灾难性遗忘”问题,即新知识覆盖旧知识,导致模型性能下降。为了解决这一难题,研究者们提出了 DUCT 模型,通过双重巩固机制(dual consolidation),在表示空间和分类器层面统一并整合历史知识,取得了显著的效果。

论文标题:

Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning

论文地址:

https://arxiv.org/abs/2410.00911

代码链接:

https://github.com/Estrella-fugaz/CVPR25-DUCT

引言

近年来,深度学习在现实世界中的应用展现了强大的潜力,从自动驾驶到人脸识别,AI 技术正在改变本文的生活。

然而,现实世界是动态且不断变化的,数据往往以流数据的形式持续更新,模型需要不断适应新的领域和数据分布。例如,在自动驾驶任务中,汽车需要应对不同季节和天气条件下的驾驶任务,而人脸识别系统则需要在各种光照条件下准确识别用户。

这种需求催生了域增量学习(Domain-Incremental Learning, DIL)的研究,但随之而来的是“灾难性遗忘”(Catastrophic Forgetting)问题这一增量学习领域的常见挑战。

为应对灾难性遗忘,近年来的研究多采用将强大的预训练模型(PTMs)作为持续学习的初始点这一做法——这是因为 PTMs 能够提供具有良好泛化性的特征表示空间。这些方法通常冻结预训练主干网络以保留已有知识,同时添加轻量级模块来学得新模式。

然而,由于后续任务的领域信息会不断覆盖这些附加模块,特征仍然会发生遗忘,从而导致分类器的预测出现偏差。这同样也为 DIL 任务带来了挑战,本文就将基于预训练模型 Vision Transformer(ViT)展开研究讨论。

具体来说,在域增量学习(DIL)任务中,数据分布会随着时间的推移而发生变化,而模型的目标就在于对新领域上的数据分布进行适应的同时,保留对旧有数据分布的辨别能力。

然而,传统的深度学习方法在学习新领域时,模型的嵌入空间(embedding)和分类器(classifier)往往会过度偏向最新领域的数据,导致对之前学到的知识产生遗忘。这种现象不仅会影响模型的性能,还可能在实际应用中带来严重的安全隐患。

图 1 中展示了域增量学习的学习过程,可以看到在每个新的任务阶段,模型都需要在来自新分布的数据上进行学习,这对模型在不同数据分布上的适应性能力提出了要求。

为了应对这一挑战,本文提出了 DUCT 模型,通过双重巩固机制(dual consolidation)来整合历史知识 —— 在表征空间上结合模型融合技术巩固历史知识,再利用类别语义信息来估计旧领域的分类器权重,从而使得旧分类器适应新的表征空间。

介绍

针对本文讨论的问题,本文首先给出问题和模型具体的形式化定义。

本文将模型的任务数据输入记作  ,其中单个任务构成为  ,且   满足  。这里,  在模型的整个学习过程中保持不变,而数据分布因任务而异,也即 

另外,本文基于 exemplar-free 这一设定,也即在学习新任务时不保存历史任务的数据样本或特征。于是,本文可以将域增量学习的目标总结为下式(其中   为假设空间,  为指示函数):

再考虑本文选取的预训练模型 ViT,本文可以将其结构拆解为两部分来看:嵌入函数(embedding function)  + 线性分类头  ,模型的输出即可表示为:

本文采用 Cosine 分类头,分类器不包含偏置项, 。在学习每个新任务时,本文参照之前的工作,仍然针对新任务拓展新的分类头,在测试阶段与旧有分类头拼接进行预测,并将   的结果作为模型输出。

DUCT

在域增量学习任务中,模型不仅面临特征层面的遗忘,还需应对分类器层面的覆盖问题。为此,本文从两个方面提出抗遗忘策略:1)通过对表征空间的巩固缓解特征级别的遗忘;2)对分类器进行校准以与嵌入空间相匹配。图 2 中给出了算法的示意图,下面本文将依次进行介绍。

▲ 图2. DUCT 算法示意图

3.1 表征空间的巩固

在域增量学习(DIL)中,模型需要平衡多个领域学得的知识,避免不断更新导致的特征覆盖和遗忘。为此,本文设计了新的特征更新策略,构建一个全能的嵌入空间,使其能够同时适应好所有领域的数据分布。

在理想情况下,本文可以为每个新领域单独训练一个模型,得到一组“领域专家(Domain Experts)”模型  。这些模型均基于相同的预训练模型进行优化,具备针对各自领域的最优判别能力。

如果本文能准确得知每个输入数据属于哪个领域,那么可以直接调用对应的专家进行预测。然而在 DIL 任务中,领域信息并不可用,这使得专家模型的直接应用变得不可行。

针对此,受到模型融合技术的启发,本文提出了一种方法,通过组合多个任务向量(Task Vectors) 来构建适用于多个领域的理想模型,学习强大的通用特征表示进行分类。

本文将预训练模型的表征空间权重记为  ,将嵌入函数在第   个域上的权重变化量定义为  ,于是可以简单地通过下式得到一个通用的表征空间:

尽管上式提供了一种直观上简洁的方法,但是该式缺少了对任务相关的考量。例如,在处理更为相似的任务时,可以采取相对更高的融合系数来强调这一部分的领域知识。因此,本文引入了任务相似性系数变量 

衡量任务相似的一种直观做法是直接计算权重向量的相似度,但由于权重空间的超高维特性,各种度量方式的区分度下降,模型间的相似性计算将失去实际意义。

为了规避维度灾难问题,本文不直接比较   在参数空间中的相似性,而是借助任务特征来间接度量。在具体做法上,本文首先需要对每个类提取类中心:

由此本文可以得到在两个嵌入空间上的两组类中心,也即  。接着,本文基于类中心的分布,以一种 pairwise 的方式来计算任务相似度:

这里本文采用 cosine 相似度来衡量两组分布的距离。最后结合之前的公式本文得到了新的结合了任务相似度的表征空间融合公式:

3.2 分类空间的巩固

实际上,在上述的模型融合过程中,由于嵌入空间的变化,分类器与新表征之间可能会出现不匹配,因此还需要进行分类头的调整巩固。为了清晰的形式化表述,这里将旧分类头记作  ,将新分类头记作  。接着,本文需要分以下两个步骤完成对新旧分类器的校准融合。

新分类头的重训练

在完成对嵌入空间的融合后,还需要将新的分类器与巩固后的特征进行对齐,以减少特征空间更新带来的不匹配问题。这里将嵌入空间参数(也即   )冻结,仅针对分类头进行重训练,可以形式化表述为下式:

旧分类头的迁移

尽管前述做法可以使新分类器与更新后的嵌入空间对齐,但旧分类器仍然可能与新的嵌入空间不匹配,从而导致模型在旧任务上的性能的显著下降,即灾难性遗忘。

考虑到在 exemplar-free 的设定下,无法存储旧任务的训练样本,因此需要找到新的方法来调整旧分类器,使其适应新的嵌入空间。在本文中,本文基于最优传输理论(Optimal Transport, OT)设计了迁移方案以协调新旧分类头的参数空间。

这里使用 OT 传输理论的主要目标在于,构造传输矩阵 𝑇 来最小化新旧分类器参数分布之间的匹配成本,从而校准旧分类器,使其适应新的嵌入空间。

本文将新分类器上的类别概率分布记作  ,旧分类器对应  。要计算从   到   的最优传输矩阵,还需要定义一个类别之间传输的代价矩阵   的值越大,代表从第   个新类到第   个旧类的传输代价越高。形式化 OT 的优化目标如下:

考虑到 𝑇 实质上可以视作一个类别映射矩阵,结合前面已经提取过的类中心,本文采用在预训练嵌入空间中类中心间的欧式距离衡量类别相似性。也即, ,以编码两个任务之间的特征相关性,从而校准旧分类器,使其适应新的嵌入空间。最后可以得到分类头的校准融合的公式如下:

实验

在实验部分,文章在 Office-Home, DomainNet, CORe50 和 CDDB-Hard 这四个数据集上进行了多个任务顺序的实验,并结合消融实验和参数稳健性分析,探讨不同模块的影响。此外,还通过可视化嵌入空间验证了所提出方法的有效性。

4.1 方法表现

图 3 中给出了在 ViT-B/16 IN1K 预训练权重下,不同方法的具体实验表现对比。

▲ 图3:DUCT实验结果对比

在下面的两张子图中分别给出了 CDDB 和 CORe50 两个数据集在 ViT-B/16 IN21K 模型上的表现。

考虑到以上结果均为在 5 个不同 domain 数据上的模型表现进行平均后所得,下图左子图给出了文中绘制的展现了 CORe50 数据集上不同学习顺序得到的模型表现的方差信息(图中阴影部分)的示意图。右子图则展示了在 CDDB 数据集上 Forgetting Measure 这一指标上的表现对比。

结合以上实验结果,本文可以得出以下结论:

1. DUCT 在最终的模型准确率(也即  )上始终比其他方法高出 1% ∼ 7%,在Forgetting Measure指标上同样展现出了最为良好的抗遗忘水平,表现稳定优越;

2. 与 L2P、DualPrompt、CODA-Prompt 等同样基于 PTM,但采用了提示学习的算法相比,基于全量微调的 DUCT 在覆盖了多种数据分布的 DIL 任务上的表现更好;与其他基于样本重放的方法(如 Replay、iCaRL 等)相比,尽管这些方法通过重放机制部分缓解遗忘,但它们大多为类别增量学习任务设计,目标函数(如扩展或蒸馏目标)可能不适用于当前任务场景;

3. DUCT 在不同的预训练权重(如 ViT-B/16 IN1K 和 IN21K)上相比其他方法,均能保持稳定提升,展示了良好的兼容性。

4.2 模块分析

针对嵌入空间融合模块,本文使用 t-SNE 可视化 DUCT 在数据量最大的 DomainNet 数据集上的嵌入空间,以展示其在 DIL 场景中的有效性。

实验时随机取了 5 个类别(图中用五个颜色进行了区分),用圆点表示第一个 domain 的样本,用三角形表示第二个 domain 的样本。下图中,左子图展示了模型融合前的样本类别分布,右子图展示了融合后的分布情况。

可以看到,经过 DUCT 训练后,不同类别间特征分布混叠的现象明显得到缓解,分类边界更合理,展现出了模型融合技术的有效性。

针对其余的方法模块,文章在 CDDB 数据集上进行了更细致的消融实验,以探讨 DUCT 各模块的重要性。如下表中所示,其中对比了多种方法变体的表现:

  • Baseline 表示直接冻结嵌入并提取类别中心作为分类器,得到的模型表现。由于预训练模型与下游任务存在域间差距(domain gap),该方法表现较差。

  • Variation 1 对应了采取均匀的任务向量融合策略下的模型表现(不考虑任务间相似度信息),可以发现引入表征空间的整合过程后,模型性能大幅提升,这验证了在 DIL 任务中采用统一的表征空间这一做法的优越性。

  • Variation 2 对应了对嵌入空间采取考虑任务间相似度的巩固措施后,模型性能得到进一步提高。这表明任务相似性有助于获得通用嵌入空间,中的分类器重训练过程,形成 Variation 3。

  • Variation 3 在 Variation 2 的基础上,对分类器做重训练后的模型表现(不进行后续的校正环节)。相比于 Variation 2 的表现可以得出结论,融合后的特征与原任务分类器之间的不匹配会削弱性能,而对分类器进行对齐有助于提升 DIL 任务的表现。

最后,将 DUCT 与 Variation 3 进行比较后发现,旧分类器的迁移对恢复先前知识并防止遗忘至关重要,使最终准确率提高了 2%。消融实验结果充分验证了 DUCT 各模块的有效性。

最后,论文中还针对模型超参数的鲁棒性进行了实验 —— 这主要包含任务向量的融合常数系数   和分类头的融合系数 

实验从   中进行选择,共计形成 25 种参数组合,并在 Office-Home 数据集上计算这些参数组合的平均性能。从图中可以看出,DUCT 对参数变化通常具有较强的鲁棒性。

此外,由于合并参数旨在平衡旧知识和新知识之间的权重,本文发现无论是较小的值(如 0.1)还是较大的值(如 1.0)表现都较差。实验时主要考虑采取建议值 

结论

本文提出了 DUCT 方法来处理域增量学习问题,并采用大量实验验证了 DUCT 的有效性。

在方法层面,由于 DIL 中的遗忘发生在两个方面,即特征表示和分类器,文章中分别设计了相应的整合技术来处理这两个问题。具体来说,DUCT 通过考虑将预训练模型与特定领域的任务向量持续合并,以实现统一的嵌入;为了弥补整合特征与分类器之间的不匹配,又设计了基于语义引导的传输方案以进行分类器整合过程。

未来的工作可能包括将 DUCT 方法扩展到非 PTM 场景,以进一步提高其适应性。同时,希望这篇工作能够激发未来在 DIL 领域有更多的研究进展。

参考文献

[1] Zhou, et al. Class-incremental learning: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence 2024

[2] Zhou et al. Continual learning with pre-trained models: a survey. IJCAI 2024

[3] Zhou et al. Expandable subspace ensemble for pre-trained model-based class-incremental learning. CVPR 2024

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值