克服神经网络中的灾难性遗忘(EWC):Overcoming catastrophic forgetting inneural networks

最新推荐文章于 2025-03-13 16:35:46 发布

三重极简

最新推荐文章于 2025-03-13 16:35:46 发布

阅读量8.8k

点赞数 1

分类专栏： # 部分翻译：模型压缩，跨域，终生学习，课程学习

原文链接：https://www.pnas.org/content/114/13/3521.short

版权

部分翻译：模型压缩，跨域，终生学习，课程学习专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一种名为弹性权重整合（EWC）的算法，旨在解决人工神经网络在持续学习中避免灾难性遗忘的问题。EWC通过根据权重对先前任务的重要性来调整学习速率，从而在不忘记旧任务的同时学习新任务。在监督学习和强化学习场景中，EWC展示了其优势，延长了记忆寿命并允许共享表示，提高了持续学习的效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

克服神经网络中的灾难性遗忘

Introduction
Results
EWC Extends Memory Lifetime for Random Patterns
EWC Allows Continual Learning in a Supervised Learning Context
EWC Allows Continual Learning in a Reinforcement Learning Context
Discussion

在这里插入图片描述

Introduction

实现人工通用智能要求智能体能够学习和记忆许多不同的任务（1）。这在现实世界中尤其困难：任务的顺序可能没有明确标记，任务可能不可预知地切换，任何单个任务都不可能长时间重复。因此，至关重要的是，智能代理必须证明一种持续学习的能力：即在不忘记如何执行先前训练的任务的情况下学习连续任务的能力。
与人工神经网络形成鲜明对比的是，人类和其他动物似乎能够持续地学习。最近的证据表明，哺乳动物的大脑可能通过保护新皮层回路中先前获得的知识来避免灾难性的遗忘(11 14)。当老鼠获得一项新技能时，兴奋性突触的比例会增强;这表现为神经元个体树突棘体积的增加(13)。关键的是，这些增大的树突棘仍然存在，尽管随后学习了其他的任务，这就解释了几个月后表现的保留(13)。当这些脊椎被选择性地抹去时，相应的技能就被遗忘了(11,12)。这为保护这些强化突触的神经机制对保持任务性能至关重要提供了因果证据。这些实验结果和神经生物学模型，如级联模型(15,16)表明，在新大脑皮层中持续的学习依赖于特定任务的突触巩固，通过改变可塑性较低的突触的比例，从而在长时间内稳定地进行知识编码。因此，知识是通过对一部分可塑性较低的突触进行持久编码的，因此在很长的时间尺度上是稳定的。
我们开发了一种人工神经网络突触整合的算法，我们称之为弹性权重整合（EWC）。该算法根据某些权重对先前看到的任务的重要性来减慢学习速度。我们展示了EWC如何在监督学习和强化学习问题中使用，在不忘记旧任务的情况下连续训练多个任务，这与以前的深度学习技术形成了显著的对比。
在本节中，我们将解释为什么我们期望在旧任务的附近找到一个新任务的解决方案，我们如何实现约束，最后我们如何确定哪些参数是重要的。

Results

在大脑中，突触巩固可能通过降低突触的可塑性来促进持续学习，而这些突触对之前学习的任务至关重要。我们实现了一种算法，在人工神经网络中通过约束重要参数使其保持在原有值附近来形成类似的操作。在本节中，我们将解释为什么我们期望在旧任务的附近找到一个新任务的解决方案，我们如何实现约束，最后我们如何确定哪些参数是重要的。
深层神经网络由多层线性投影和单元非线性组成。学习一个任务包括调整权重集和线性投影的偏差θ，以优化性能。
在这里插入图片描述

这个约束被实现为一个二次惩罚，因此可以想象为一个弹簧，将参数锚定到前一个解上，因此得名为弹性。重要的是，这个弹簧的刚度不应该是相同的所有参数;相反，对于那些对taskA性能影响最大的参数，它应该更大。
为了证明这个约束的选择和定义哪个权重对一个任务最重要，从概率的角度考虑神经网络训练是有用的。从这个角度来看，优化参数就相当于在给定数据 $\mathcal{D}$ 的情况下找到它们最可能的值。
在这里插入图片描述

后验概率必须包含有关哪些参数对任务A很重要的信息，因此是实现EWC的关键。真正的后验概率是难以处理的，因此，根据Mackay(19)的拉普拉斯逼近，我们将后验概率近似为高斯分布，其均值由参数为 $\theta^*_{A}$ ，由费雪信息矩阵 $F$ 的对角给出的对角精度。
$F$ 有三个关键属性(20)：
(i)它等于损失接近最小值时的第二次导数
(ii)它可以单独由一阶导数计算，因此即使对于大型模型也很容易计算
(iii)保证它是半正定。注意，这种方法类似于期望传播，其中每个子任务都被看作是后端因素(21)。

在这里插入图片描述
当切换到第三个任务taskC时，EWC会尽量让网络参数接近task A和B的学习参数。这可以通过两种不同的惩罚来强制执行，
1.两个分开的惩罚
2.两个二次惩罚的和本身就是二次惩罚
（分开或者某种形式的求和）

EWC Extends Memory Lifetime for Random Patterns

在这种情况下，整个Fisher信息矩阵的对角线与观察到的模式数目成比例；因此在EWC的情况下，随着观察到更多的模式，学习率降低。在参考文献15之后，如果存储器的信噪比（SNR）超过某个阈值，我们将其定义为保留存储器。
图2为观测到的第一个模式，利用梯度下降（蓝线）和EWC（红线）得到的信噪比。首先，这两种情况下的信噪比非常相似，遵循斜率为−0.5的幂律（power-law）衰减。当观察到的模式数量接近网络容量时，梯度下降的信噪比以指数速度衰减，而EWC则保持幂律衰减。梯度下降观测到的指数衰减是由于新模式干扰旧模式造成的；EWC可以防止这种干扰，并增加记忆的保留率(图2，底部)。在下一节中，我们将展示在更现实的情况下，输入模式有更复杂的统计数据，干扰更容易发生，因此EWC相比梯度下降有更显著的好处。
在这里插入图片描述

EWC Allows Continual Learning in a Supervised Learning Context

考虑到EWC允许网络在容量固定的网络中有效地嵌入更多的功能，我们可能会问它是否为每个任务分配了网络中完全独立的部分，或者是否通过共享表示以更高效的方式使用容量。为了评估这一点，我们通过计算任务对各自的费雪信息矩阵(费雪重叠)之间的重叠，来确定每个任务是否依赖于相同的权重集。较小的重叠意味着两个任务依赖于不同的权重集（即，EWC为不同的任务分配了网络的权重）；较大的重叠表示两个任务都使用了权重（即EWC允许共享表示）。图3显示了重叠与深度的函数关系。作为一个简单的控制，当一个网络被训练在两个非常相似的任务上（MNIST的两个版本，其中只有几个像素被置换），任务依赖于整个网络中相似的权重集（灰色虚线曲线）。当这两个任务之间的差异更大时，网络开始为这两个任务分配各自权重(黑色虚线)。然而，即使是大的排列，接近输出的网络层也确实被重用用于这两个任务。这反映了这样一个事实：置换使得输入域非常不同，但是输出域（即类标签）是共享的。

EWC Allows Continual Learning in a Reinforcement Learning Context

值得注意的是，以往的持续学习强化学习方法要么依赖于增加网络容量（27,28），要么依赖于在单独的网络中学习每个任务，然后使用这些网络训练能够玩所有游戏的单一网络（9,10）。相比之下，本文提出的EWC方法利用具有固定资源（即网络容量）的单一网络，并且具有最小的计算开销。
除了使用EWC来保护以前获得的知识外，我们还使用RL域来解决成功的连续学习系统所需的更广泛的要求：特别是，需要更高级别的机制来确定当前正在执行的任务，在遇到新任务时检测并合并它们，并允许在任务之间快速灵活地切换（29）。在灵长类动物的大脑中，前额叶皮层被广泛认为是通过维持任务情境的神经表征来支持这些能力的，这些任务情境对感觉加工、工作记忆和动作选择产生了自上而下的影响（30-33）。受此证据的启发，我们用额外的功能增强了DQN代理来处理切换任务上下文。EWC算法需要知道正在执行的任务，因为它可以通知当前哪些二次约束是活动的，以及当任务上下文发生变化时要更新哪个二次约束。为了推断任务上下文，我们实现了一种无需监督训练的在线聚类算法，它基于勿忘我(FMN)过程(34)(参见材料和方法)。我们还允许dqn代理为每个推断任务维护单独的短期内存缓冲区。这些允许每个任务的操作值通过使用经验回放机制（25）获得。因此，整个系统在两个时间尺度上有记忆：超调时间尺度，经验回放机制允许在DQN中学习基于交错和不相关的经验（25）。在较长的时间内，通过使用EWC，跨任务的专有技术得以整合。最后，我们允许少量的网络参数是特定于游戏的。特别是，我们允许网络的每一层都有偏差和每个元素的乘数收益，这是特定于每个游戏的。
在这里插入图片描述
虽然用EWC增加DQN代理可以让它连续获得许多游戏而不会遭受灾难性遗忘，但它无法达到训练10个单独的DQN所能获得的分数。一个可能的原因是，我们根据参数不确定性的一个可处理的近似，即费雪信息，合并了每个游戏的权重。因此，我们试图从经验上检验我们估计的质量。为此，我们对一个代理进行了single游戏的训练，并测量了网络参数的扰动如何影响代理的分数。不管agent被训练在哪个游戏中，我们观察到相同的模式，如图4C所示。首先，相对于均匀扰动(黑色)，对于由Fisher信息对角线的反方向所形成的参数扰动，代理总是更鲁棒。这证明了费雪信息的对角线是参数重要程度的一个很好的估计。在我们的近似中，零空间中的扰动应该不会影响性能。然而，根据经验，我们观察到在这个空间(橙色)中的扰动与在逆费雪空间中的扰动具有相同的效果。这表明我们过分确信某些参数是不重要的:因此，当前实现的主要限制很可能是低估了参数的不确定性。