南大发布最新综述！全面解析如何使用预训练模型进行持续学习

最新推荐文章于 2025-03-28 13:32:03 发布

PaperWeekly

最新推荐文章于 2025-03-28 13:32:03 发布

阅读量1.1k

点赞数 19

文章标签：学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/141339971

版权

©PaperWeekly 原创 · 作者 | 孙海龙

单位 | 南京大学LAMDA实验室

研究方向 | 预训练模型、MLLM

论文标题：

Continual Learning with Pre-Trained Models: A Survey

论文地址：

https://arxiv.org/abs/2401.16386

代码链接：

https://github.com/sun-hailong/LAMDA-PILOT

摘要

在实际应用中，数据通常以流数据的形式出现，这就要求模型必须持续地吸纳新知识。持续学习（Continual Learning, CL）应运而生，旨在实现这一目标，同时努力避免在吸收新知识过程中对既有知识的灾难性遗忘。传统的 CL 方法从零开始构建模型，以适应不断更新的数据流。

然而，随着预训练模型（Pre-trained Models, PTM）时代的到来，如何利用 PTM 的强大能力来进行 CL 成为一个新的研究热点。本文综述了基于 PTM 的 CL 研究的最新进展，将现有方法分为三大类，并对它们之间的相似性、差异性及各自的优势和劣势进行了深入的比较分析。此外，我们通过实证研究对比不同最新方法，探讨了比较中的公平性问题。

▲ 图1 传统 CL 于 PTM-based CL 的区别

引言

随着深度神经网络技术的迅速进步，深度学习模型在众多应用场景中展示了令人瞩目的成果。然而，在现实世界中，数据通常以流的形式出现。例如，由于隐私问题和存储限制，我们无法永久保留流数据，这就需要我们开发能够不断适应和演化的学习系统，这一过程称为持续学习（Continual Learning, CL）。在 CL 的研究中，一个主要挑战是“灾难性遗忘”，即新知识的获取会导致在旧任务上性能显著下降的现象。

传统的 CL 方法从头开始训练模型，即从随机初始化的权重开始。但是，随着预训练技术的快速发展，使用预训练模型（PTM）成为了一种新的可能性。这些模型利用大量数据集和复杂的技术开发，展现了在 CL 中的巨大潜力。基于 PTM 的 CL 方法相较于传统 CL 方法有着本质的不同，它们从大规模预训练模型出发，这些模型本身就具有对各种任务的强大泛化能力，使得基于 PTM 的 CL 成为一个热门研究话题。

图 1 展示了基于 PTM 的持续学习方法与传统 CL 方法之间的差异。这两种方法都旨在使模型在学习新信息的同时，保留之前获得的知识。基于 PTM 的 CL 与传统 CL 的主要区别在于模型的初始设置，前者从一个大规模的预训练模型开始，后者则是从零开始。这种区别就像是比较训练一个婴儿从头学习知识，与利用一个成年人的专业知识进行学习的不同。

目前，关于 CL 的综述主要集中在不使用预训练模型的传统算法上。但在当今 PTM 盛行的时代，基于 PTM 的 CL 正成为研究的焦点。观察发现，基于 PTM 的 CL 的性能正在接近 CL 潜力的上限，这显示出这是一个充满前景的应用领域。因此，该领域迫切需要一篇全面且最新的综述来推动 CL 领域的进一步发展。我们的综述提供了以下贡献：

我们提出了第一份全面的综述，涵盖了基于预训练模型的持续学习的最新进展，包括问题定义、基准数据集和评估协议。通过基于这些方法的定义特征，将它们系统地分类为三个子类别，我们提供了一个完整且有结构的主题概述。
我们的评估不仅涉及每个子类别中的代表性方法在七个基准数据集上的应用，而且我们还识别了一个可能影响基于预训练模型的持续学习中比较公平性的关键因素，为方法论评估提供了洞察。
我们突出了基于预训练模型的持续学习当前面临的挑战和潜在的未来方向。我们旨在揭示那些未被充分研究的方面，以激发进一步的调查，探索该领域内各种可能的路径及其相互之间的关系。

▲ 图2 PTM-based CL 的分类

与从头开始训练嵌入函数相比，利用预训练模型（PTMs）带来了两个主要特点。首先，与随机初始化的模型相比，PTMs 天生具有“泛化能力”。从表示学习的角度看，持续学习的终极目标是学习一个适当的嵌入函数，以捕获所有已见任务，而 PTMs 在一开始就提供了一个强大且具有泛化能力的特征提取器。因此，可以基于固定的骨干网络设计算法。

另一方面，ViT 的结构使得可以通过冻结预训练权重进行轻量级调整。 技术如 prompt learning 和 adapter learning 使 PTMs 能够快速适应下游任务，同时保持泛化能力。因此，与从头开始训练相比，使用 PTMs 的持续学习在抵抗遗忘方面表现出更强的性能。

PTM-based 持续学习

我们将当前基于预训练模型（PTM）的持续学习（CL）研究根据解决学习问题的不同思路分为三个类别：基于提示（prompt）的方法、基于表示（representation）的方法以及基于模型混合（model mixture）的方法。

这些类别利用预训练模型的不同方面来促进持续学习。例如，鉴于 PTM 强大的泛化能力，基于提示的方法依赖于提示调整技术来进行轻量级的 PTM 更新。由于预训练权重保持不变，PTM 的泛化能力得以保留，从而缓解了遗忘现象。同样，基于表示的方法直接利用 PTM 的泛化能力来构建分类器。

最后，基于模型混合的方法在学习过程中设计了一套模型，并利用模型融合、模型集成等混合技术来得出最终预测。我们在图 2 中展示了基于 PTM 的 CL 的分类，并列出了代表性工作。在接下来的部分中，我们将介绍每个类别，并深入讨论它们的优缺点。

3.1 Prompt-based方法

观察到预训练模型（PTMs）的强大泛化能力后，如何调整 PTM 涉及到一个权衡：完全微调权重以捕获下游任务会抹除可泛化的特征，而固定骨干网络则无法将下游信息编码入骨干网络。

为此，视觉提示调整（Visual Prompt Tuning, VPT）揭示了一种利用轻量级可训练模块（例如，prompt）来调整 PTM 的有希望的方式。具体来说，它在补丁特征前添加一组可学习的参数。因此，模型将的拼接视为 ViT 的输入，并最小化交叉熵损失，以将任务特定信息编码进这些提示中，同时冻结预训练权重：

其中代表通过添加提示前的提示特征。优化式 2 使得模型能够将任务特定信息（即的关键特征）编码进提示。因此，许多工作被设计来利用提示调整进行 CL。

prompt pool：虽然式 2 使得预训练模型的轻量级调整成为可能，但顺序优化单个提示以适应新任务将遭受灾难性遗忘，即重写前任务的提示权重导致前后任务之间的表示不兼容。因此，许多工作提出设计提示池，它收集一组提示，即，其中是池的大小。提示池可以被视为 CL 模型的外部记忆，使得在训练和推理过程中能够进行实例级的提示。因此，单个提示的遗忘可以被缓解，但它需要一个合适的提示选择机制。

prompt 选择：有了一组提示，我们需要决定对特定实例使用哪个提示，即定义一个检索函数来选择实例级的提示。提示检索成为基于提示方法的核心问题，许多工作设计了不同的变体。L2P 设计了一个键-查询匹配策略，为每个提示分配一个可学习的键。

在这种情况下，提示池被表述为。为了检索实例级的提示，它利用没有提示的 PTM 来编码特征进入键的嵌入空间，并选择具有相似键的提示：

因此，优化式 4 也使键与编码特征相似。上述 key-query 匹配过程是一个期望最大化（EM）过程。具体来说，在 E 步骤中，根据它们与查询特征的相似性选择前 N 个键。在 M 步骤中，然后将键拉近查询。

受 L2P 方法的启发，许多工作被提出以改善选择过程。DualPrompt 方法探索提示深度的重要性，通过将提示附加到不同层来实现。它还将提示分解为通用提示和专家提示。其中，通用提示旨在编码所有任务共享的任务通用信息。

相比之下，专家提示是任务特定的，其数量等于任务的数量。它在推理期间使用式 3 中相同的检索策略。PP-TF 方法应用了类似的策略在代码生成模型中。S-Prompt 方法还考虑了任务特定的提示策略，当学习新任务时，它通过添加新提示扩展提示池。

它不是使用键-查询匹配，而是通过在每个任务中进行 K-means 聚类来构建任务中心，并使用 KNN 搜索找到最相似的任务以获取提示。MoP-CLIP 方法通过在推理期间结合多个提示来扩展 S-Prompt。

prompt 组合：虽然从提示池中选择提示听起来合理，但式 3 中的匹配过程仍然是一个硬匹配，只存在有限的选择。相应地，CODA-Prompt 建议从提示池构建基于注意力的提示。在提示检索期间，它使用查询特征计算对所有键的注意力向量，并使用注意力结果创建提示组件的加权求和：

其中是相应提示的可学习注意力向量，表示 Hadamard 乘积。式 5 通过元素逐个乘法计算输入特征与提示键之间的注意力得分。因此，如果查询实例与某个键向量更相似，相应的提示值在最终构造的提示中将发挥更重要的作用。由于它将提示视为提示空间中的 “bases”，它还设计了一个额外的正交性损失以增强提示多样性。

prompt 生成：虽然 CODA-Prompt 解决了基于注意力的提示组合问题，组合过程仍受到提示池的限制。因此，许多工作进一步设计元网络（meta-networks），能够生成实例级的提示。相应地，DAP 通过将提示生成编码进一个 MLP 网络来实现这一目标。它通过以下方式生成实例级的提示：

中 LN 表示层归一化，和由任务预测的线性变换产生，作为提示生成中的权重和偏置。与式 6 中的输入级提示生成不同，APG 方法利用注意力机制在 ViT 的中间层进行提示生成。

基于提示方法的总结：我们在图 3 中总结了提示选择的方式，包括 L2P 中的提示检索方式、DualPrompt 中的任务特定和通用提示、CODA-Prompt 中的基于注意力的组合以及 DAP 中的提示生成。除了选择提示外，一些工作也考虑将所有提示附加到查询实例上，或学习视觉提示（即像素级参数）。

▲ 图3 不同种类的 prompt 选择方式

优势与劣势：基于提示的方法通过轻量级提示，在预训练知识和下游任务之间取得平衡，带来许多优势。首先，提示有助于桥接领域差异并有效编码任务特定知识。其次，由于这些轻量级模块与特征具有相同的维度，保存提示是参数高效的，这自然适合一些边缘场景，如联邦学习。最后，学习提示池充当 PTM 的外部记忆，使得能够进行自适应知识检索和实例级预测。

然而，这类方法也存在一些缺点。首先，一些工作发现式 3 中的提示选择过程会收敛到单一点，使得提示选择只集中在特定子集上。此外，由于键和提示值在整个学习过程中不断变化，这些参数的更新将抹除前任务的更新。这进一步导致匹配级别和提示级别的遗忘，使得提示选择过程成为持续学习中的瓶颈。

此外，如果我们使用固定大小的提示池，表示能力将受到限制。相比之下，如果提示池随着数据的演化而增长，它将导致训练和测试之间的不匹配，因为旧任务可能会检索到新提示。

最后，尽管基于提示的方法为基于 PTM 的 CL 揭示了一个有前景的解决方案，一些工作发现它们的性能低于简单的基于原型的基线。虽然一些基于提示的方法显示出惊人的结果，但由于批次提示选择（在后续 3.3 节中讨论的），一些关于比较公平性的问题引起了关注。

3.2 Representation-based方法

考虑到预训练模型（PTMs）的强大表示能力，人们可能会好奇它们是否已经掌握了对新任务进行分类的知识。换句话说，我们如何衡量 PTMs 在这些下游任务上的内在能力？借鉴表示学习的想法，SimpleCIL 提出了一种简单的方法来实现这一目标。面对持续的数据流，它冻结了预训练的权重并提取每个类的中心（即原型）：

其中。在式 7 中，同一类的嵌入被平均，导致对应类的最常见模式。因此，它可以在推理过程中作为分类标准或模板。相应地，SimpleCIL 方法直接用原型替换第类的分类器权重，并使用余弦分类器进行分类，即。

因此，面对新任务，我们可以计算并用嵌入冻结的分类器替换每个类。令人惊讶的是，这种简单的解决方案显示出比许多基于提示的方法，例如 L2P 和 DualPrompt，更优越的性能。这表明 PTMs 已经具有可以直接用于下游任务的泛化表示。类似的现象也在其他研究中发现，并且已经应用于大型语言模型。

串联 backbone：观察到 PTMs 的强大泛化能力，ADAM 方法进一步通过比较原型基分类器和完全微调模型在新类上的性能。令人惊讶的是，它发现如果适应下游任务，PTMs 可以在新类上获得更好的性能。这表明 PTMs 虽然具有泛化能力，但并不拥有下游数据的任务特定信息。因此，ADAM 建议使用参数高效的模块（例如提示或适配器）微调 PTM，并串联预训练模型和适应后模型的特征：

其中表示微调后的模型。在式 8 中，适应过程弥合了预训练和下游数据集之间的领域差距，且串联的特征拥有泛化（即 PTM）和任务特定（即微调模型）的信息。因此，ADAM 进一步提高了与 SimpleCIL 相比的性能。

利用随机投影：基于 ADAM，RanPAC 方法进一步发现，通过式 8 计算出的原型在类之间经常相关。因此，它建议使用在线 LDA 分类器去除类间相关性以获得更好的可分性。此外，为了使特征分布适合高斯拟合，它设计了一个额外的随机投影层，将特征投影到高维空间。之后，在投影空间中计算原型，即

此外，LayUP 方法进一步发现强大的表示能力也存在于变换器块的其他深层。它将最后层特征的连接视为表示，并基于此训练在线 LDA。

缓学习者与特征回放：在式 8 中，通过骨架连接保持了模型的泛化能力和适应性。相比之下，也有工作旨在寻找预训练模型与完全适应模型之间的交集。SLCA 方法建议以小的学习率调整嵌入函数，而以大的学习率调整分类器。这使得特征能够逐渐拟合，而分类器能够快速适应。为了抵抗遗忘先前的分类器，它遵循模型类别特征分布并回放它们来校准分类器。

优势与劣势：基于表示的方法旨在充分利用预训练特征，在各种任务中展示出竞争性能。这一系列工作具有许多优点。首先，由于类原型代表相应类别的最常见模式，因此使用它们构建识别模型既直观又可解释。使用基于原型的分类器也提供了一种简单而有效的方式来探索基于 PTM 的 CL 的 baseline。

此外，这一系列工作主要是冻结骨架并更新分类器权重。轻量级的更新成本使它们在现实世界应用中成为可能，例如，将类似技巧应用于联邦学习，通过在各个客户端同步全局原型。

然而，也存在一些缺点。首先，将不同模型的特征连接起来形成类原型忽略了模型间的冗余。例如，在没有修剪策略的情况下，共享的特征可能在不同的骨架中被重复提取。其次，当下游任务涉及多个领域时，在第一阶段（如式 8 中）适应模型不足以跨数据集消除领域的差距。在这种情况下，持续调整骨架可能更适合提取任务特定特征。

3.3 Model Mixture-based方法

模型集成：鉴于 PTMs 展示出可泛化的特征，基于 PTM 创建一组模型变得可能。ESN 方法创建了一组基于相同 PTM 的独立分类器，即每遇到一个新任务时，它就初始化并训练一个新的分类器头。在推理过程中，它通过采用一组温度参数设计了这些分类器头的投票策略。LAE 方法采用了类似的推理策略，通过选择不同模型中的最大 logit 值。

由于集成的核心因素取决于学习者的差异，一些工作旨在增强模型间的多样性，而不是构建一组具有相同 PTM 的分类器。PromptFusion 方法利用一个预训练的 ViT 和一个 CLIP，并在推理过程中动态组合 logit 值，即

与多个骨架的集成不同，PROOF 方法设计了一个更全面的推理格式，仅使用单个 CLIP。由于 CLIP 能够实现视觉和文本特征的跨模态匹配，PROOF 设计了一个考虑图像到文本、图像到图像原型以及图像到调整文本的三级集成，包括跨模态融合。

模型融合：另一系列工作考虑模型融合，即将多个不同的模型合并成一个统一的模型，无需额外训练。LAE 方法定义了在线和离线学习协议，其中在线模型通过交叉熵损失更新，旨在新任务中获取新知识。相反，离线模型通过模型融合更新，例如，指数移动平均（EMA）：

其中是权衡参数。值得注意的是，LAE 仅将式 9 应用于参数高效的调整模块（例如，prompt）。它利用在线和离线模型的最大 logit 进行推理。Hide-Prompt 方法也在每个持续学习阶段后应用了类似的提示合并。

与 LAE 类似，ZSCL 方法将融合技术应用于 CLIP 模型，旨在持续学习期间保持其零样本性能。然而，它发现随着权衡参数在式 9 中的变化，性能并不稳定。因此，它提议每隔几次迭代就合并参数，使模型训练期间的损失轨迹更加平滑。

此外，注意到式 9 在合并时给每个参数赋予了相同的重要性，CoFiMA 方法认为不同参数对任务的重要性应该不同。因此，它在合并过程中引入了 Fisher 信息作为每个参数的估计重要性。

优势与劣势：在基于 PTM 的 CL 中，构建多个模型进行混合是直观的。因此，基于模型混合的方法有一些优点。首先，学习多个模型使模型集合内部能够做出多样化的决策。因此，使用模型合并或集成自然会产生更稳健的结果。

其次，由于模型直接合并以得出统一预测，可以调整先前和后来模型的权重，以突出不同阶段共享知识的重要性。最后，由于模型集将在推理期间合并，因此随着更多模型添加到模型集中，最终推理成本不会增加。也可以应用重参数化技术进行模型合并，使边缘设备的模型大小受限。

然而，我们也注意到基于模型混合的方法存在一些缺点。首先，设计模型集成需要保存所有历史模型，并消耗大量内存缓冲区。虽然基于模型合并的方法不需要这么大的成本，但合并大骨架的权重也需要许多额外的计算。其次，决定哪些参数进行合并仍然是一个开放问题，使得合并解决方案变得启发式和手工制作的。

CL的方法评估

4.1 数据集及其划分

数据集：由于预训练模型通常使用 ImageNet21K 进行训练，因此使用 ImageNet 来评估方法的有效性并不具有意义。因此，我们遵循 [Zhou 等人，2023c; McDonnell等人，2023] 的做法，在 CIFAR100、CUB200、ImageNet-R、ImageNet-A、ObjectNet、Omnibenchmark 和 VTAB 共 7 个数据集上评估模型的性能。

除了 CL（持续学习）的典型基准数据集（例如 CIFAR 和 CUB）之外，其他五个数据集与 ImageNet 存在较大的领域差异，这降低了 PTM 的泛化能力，增加了 CL 的难度。

数据集划分：遵循 [Zhou 等人，2023a] 的定义，我们将数据划分为 B-m, Inc-n，即第一个数据集包含 m 个类别，每个后续数据集包含 n 个类别。m=0 意味着所有类别均等分配到每个任务中。在划分之前，我们使用相同的随机种子随机排列所有类别 [Zhou 等人，2023a]，以确保公平比较。

性能测量：用表示第阶段后的 Top-1 准确率，我们遵循 [Zhou 等人，2023a]的方法，使用最后一阶段的准确率和增量阶段平均性能作为性能测量指标。

4.2 实验结果

根据图 2 中的分类，我们比较了三个类别中的九种方法。其中，L2P、DualPrompt、CODA-Prompt 和 DAP 属于基于提示的方法；SimpleCIL、ADAM 和 RanPAC 属于基于表示的方法；ESN 和 HiDe-Prompt 属于基于模型混合的方法。我们在表 1 中报告了七个基准数据集上的结果，并使用不同颜色代表不同类别的方法。从这些结果中，我们得出三个主要结论：

几乎所有方法在典型的 CL 基准上表现良好，即 CIFAR100，而一些方法在与预训练数据集存在较大领域差异的基准上存在问题（例如，ImageNet-A）。这表明，在 PTMs 时代，应提出更具挑战性的基准来作为 CL 基准。
基于表示的方法（例如，ADAM 和 RanPAC）比其他方法（除了 DAP，稍后讨论）展现出更具竞争力的性能。这表明基于提示和基于模型混合的方法中的表示可以进一步培养，以提高它们的性能。
简单的基线 SimpleCIL 比典型的基于提示的方法（例如，L2P 和 DualPrompt）表现更好，验证了 PTMs 的强大表示能力。这意味着更复杂的学习系统并不保证更好的性能，甚至可能在不兼容的模块间引入噪声。

4.3 关于比较公平性的讨论

从表 1 中，我们观察到除了 DAP 之外，基于提示的方法表现不佳。然而，我们在 DAP 中发现了一个致命问题，可能会影响未来比较的公平性。具体来说，DAP 通过式 6 生成实例级的提示。但是，方程中的依赖于同一批次的投票。在推理过程中，它将同一任务的实例聚类到同一批次，并对同一批次使用相同的生成方法。

换句话说，这等同于直接标注任务身份并简化难度。当我们将测试的 batchsize 设置为 1，即在 DAP 中移除 batch 信息（记为 DAP w/o BI）时，我们观察到性能急剧下降。DAP w/o BI 甚至比典型的基于提示的方法 L2P 表现更差，验证了核心改进来自 batch voting 信息。由于机器学习模型应该独立测试，利用此类上下文信息显然会导致不公平的比较。在本文中，我们希望指出这种不公平性，并使 CL 比较回归正轨。

未来展望及方向

5.1 大语言模型的增量学习

在当前由预训练模型（PTMs）主导的技术格局中，对于大型语言模型（LLMs）如 GPT 的持续学习能力日益显得至关重要。这些模型需要适应不断变化的信息，比如全球事件的变化。例如，在 2020 年选举之后，GPT 需要从“美国当前总统是谁？→ “Donald Trump” 更新为 “Joe Biden”。

通常，这需要使用更新后的数据集进行全面的重新训练，因为增量微调可能会导致覆盖其他相关知识。这一过程耗费资源巨大，涉及数千个 A100 GPU 运行数月，导致大量电力消耗，并对二氧化碳排放造成显著影响。

持续学习（CL）提供了一种解决方案，使 LLMs 能够逐步更新新概念。这种设置在文献中常被称为终身模型编辑，与基于 PTM 的 CL 共享方法。因此，为 LLMs 开发 CL 策略代表了未来研究的一个有前景的方向，可能减少资源消耗并增强这些模型对当前信息的响应能力。

5.2 超越单一模态的识别

本综述主要关注基于 PTM 的 CL 在视觉识别领域的进步，这是机器学习中的一个关键领域。然而，预训练的最新进展范围已经超越了单一模态模型，扩展到了包括多模态 PTMs，如 CLIP。这些多模态 PTMs 能够处理、响应并与各种类型的输入进行推理。尽管在视觉识别方面取得了显著进步，特别是在利用文本信息来增强和选择适当提示方面，但对于超越视觉识别的兴趣正在增长。

例如，PROOF 推进了 CLIP 及其他视觉-语言模型在多种多模态任务中的持续学习能力，这是通过引入跨模态融合模块实现的，标志着多模态持续学习向前迈出的重要一步。向多模态集成的转变为未来研究和领域应用开辟了新的激动人心的路径。

5.3 有限计算资源下的持续学习

大型 PTMs 在各种任务中的熟练程度是不可否认的，但这些模型的持续调整经常会带来显著的计算成本。在 PTMs 的背景下，模型的部署不仅限于基于云的环境，还扩展到边缘设备。

一个相关的例子是为个人助理智能手机应用训练 LLMs，这需要本地训练和推理。这种情况需要计算效率高的持续学习算法。反映这一需求，最近在持续学习方面的进步越来越多地集中在资源有限的场景上。这一趋势很可能照亮并应对未来发展中与计算效率相关的关键挑战。

5.4 超越PTM知识的新基准

CL 的本质是赋予学习系统获取以前缺乏的知识的能力。然而，鉴于用于 PTMs 的广泛训练数据集，如 ImageNet，这些模型很少遇到不熟悉的信息。因此，在其预训练数据集的子集上训练 PTMs 可能是多余的。迫切需要新的数据集，与 ImageNet 相比显示出显著的领域差异，以有效挑战这些模型。

在本综述中，我们遵循 [Zhou等人，2023c] 的做法，使用 ImageNet-R/A、ObjectNet、OmniBenchmark 和 VTAB 进行评估。这些数据集提供了与 ImageNet 相比具有显著领域差异的多样化数据。然而，随着训练技术和数据集的不断发展，识别和利用提出对 PTMs 全新挑战的新基准——它们以前未遇到且必须学习的数据——仍然是一个有趣且重要的方向。

5.5 关于 PTMs 优势的理论研究

将 PTMs 引入持续学习社区提供了一个强大的起点，并显示出具有竞争力的性能。利用这样强大的 PTMs 为 CL 的实际应用创建了新的道路。最近的研究发现，与从头开始训练相比，从 PTMs 训练的模型更不容易遗忘。具体来说，它们表明，即便是顺序更新的 PTMs，仍然具有强大的表示能力，可以通过线性探针实现竞争性能。由于这些现象仅在经验上观察到，理论上探索其背后的原因将是有趣的。