【论文详读】Overcoming catastrophic forgetting in neural networks

摘要

为了缓解神经网络灾难性遗忘,作者们提出了一种类似于人工神经网络突触巩固的算法(EWC)。该方法通过选择性地放慢对那些任务重要权重的学习来记住旧任务,即该方法会根据权重对之前看到的任务的重要性来减慢学习速度。

EWC

以往的学习任务包括调整一组权重和偏差 θ \theta θ 的线性投影,以优化性能。 θ \theta θ 的许多配置将导致相同的性能。这种过度参数化使得任务 B 可能有一个解决方案 θ B \theta_B θB ,它接近于之前为任务 A 找到的解决方案 θ A \theta_A θA 。因此,在学习任务 B 时,EWC通过将以 θ A \theta_A θA 为中心的任务 A 的参数限制在一个低误差的区域来保护任务 A 的表现,如图1所示。该约束被实现为二次惩罚,因此可以想象为一个将参数锚定到前一个解决方案的弹簧,因此有elastic的名称。重要的是,这个弹簧的刚度不应该对所有参数都一样;相反,对任务 A 的表现影响最大的参数应该更大。图1
fig.1 EWC确保在训练任务 B 的时候记住任务 A。(训练轨迹在示意图参数空间中显示,参数区域导致任务a(灰色)和任务B(奶油色)的良好表现。当训练第一个任务时,参数为 θ A ∗ \theta_A^* θA。如果我们单独根据任务B(蓝色箭头)采取梯度步骤,我们会使任务B的损失最小化,但会破坏我们从任务A中学到的东西。另一方面,如果我们用相同的系数(绿色箭头)来约束每个权重,那么这个限制就太严格了,我们只能记住任务A,而不能学习任务B。相反,EWC通过显式计算任务 A 的权重有多重要,进而找到任务B的解决方案,而不会在任务 A 上造成重大损失(红色箭头)。)

现在的问题便是如何找到那些权值对任务最重要!
从概率的角度是有用的!

可以通过贝叶斯规则由参数 p ( θ ) p(\theta) p(θ) 的先验概率和数据 p ( D ∣ θ ) p(D|\theta) p(Dθ) 的概率计算出这个条件概率 p ( θ ) ∣ D p(\theta)|D p(θ)D
在这里插入图片描述
给定参数 log p ( θ ) ∣ D p(\theta)|D p(θ)D 的数据对数概率只是当前问题的损失函数的负数 − L ( θ ) -\mathcal{L}(\theta) L(θ)。假设将数据集分成两个独立的部分,一个被定义为任务 A ( D A ) A(D_A) A(DA),另一个被定义为任务 B ( D B ) B(D_B) B(DB),根据以下公式可以重新调整:
在这里插入图片描述
其中,左侧仍然描述给定整个数据集的参数的后验概率,而右侧仅取决于任务 B 的损失函数 log p ( D B ∣ θ ) p(D_B|\theta) p(DBθ)。因此,关于任务 A 的所有信息都必须被吸收到后验分布 p ( θ ∣ D A ) p(\theta|D_A) p(θDA) 中。这个后验概率必须包含哪些参数对任务A是重要的,因此是完成 EWC 的关键。真正的后验概率是难以处理的,因此,在 Mackay (19) 的拉普拉斯近似工作之后,作者将后验近似为高斯分布,其均值由参数 θ A ∗ \theta^*_A θA 给出,对角精度由 Fisher 信息矩阵 F F F 的对角线给出。

其中, F F F 包含三个关键性质:
1)它相当于损失接近最小值的二阶导数;
2)它可以单独从一阶导数计算,因此即使对于大型模型也很容易计算;
3)它保证是半正定的。
这种方法类似于期望传播,每个子任务都被视为后验因素。给定这个近似,在 EWC中最小化的函数 L \mathcal{L} L 是:
在这里插入图片描述
其中的 L B ( θ ) \mathcal{L}_B(\theta) LB(θ) 只是任务 B 的损失, λ \lambda λ 设置旧任务相对于新任务的重要程度, i i i 标记每个参数。

当移动到第三个任务 C 时,EWC 会尽量使网络参数接近任务 A 和任务 B 的学习参数。这可以通过两个单独的惩罚来执行,也可以通过注意到两个二次惩罚的总和本身就是一个二次惩罚来执行。

EWC Extends Memory Lifetime for Random Patterns

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Capsule Networks for Computer Vision: A Survey 胶囊网络在计算机视觉中的应用:一篇综述 Abstract: 摘要: Capsule Networks (CapsNets)是一种新颖的深度神经网络架构,旨在克服传统卷积神经网络(CNNs)的一些限制,例如旋转不变性和视角不变性。Capsule Networks使用胶囊来表示图像或对象的各个特征,并且能够学习对象的姿态和空间关系。本文旨在提供对Capsule Networks的综述,重点介绍其在计算机视觉中的应用。我们首先介绍了Capsule Networks的基本原理和结构,并讨论了其与CNNs的区别。然后,我们概述了Capsule Networks在图像分类、目标检测、语义分割和图像生成等任务中的应用。接下来,我们总结了当前在Capsule Networks领域的最新研究进展,并讨论了该领域未来的发展方向。 Capsule Networks (CapsNets) are a novel deep neural network architecture aimed at overcoming some of the limitations of traditional Convolutional Neural Networks (CNNs), such as rotational and viewpoint invariance. Capsule Networks use capsules to represent various features of an image or object and are capable of learning the pose and spatial relationships of objects. This paper aims to provide a survey of Capsule Networks, with a focus on their applications in computer vision. We first introduce the basic principles and structure of Capsule Networks and discuss their differences with CNNs. Then, we outline the applications of Capsule Networks in tasks such as image classification, object detection, semantic segmentation, and image generation. Next, we summarize the latest research developments in the field of Capsule Networks and discuss future directions in this field.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值