持续学习：（Elastic Weight Consolidation, EWC）Overcoming Catastrophic Forgetting in Neural Network

最新推荐文章于 2025-04-13 16:14:23 发布

PhenomenonMe

最新推荐文章于 2025-04-13 16:14:23 发布

阅读量1w

点赞数 31

CC 4.0 BY-SA版权

分类专栏：持续学习文章标签：深度学习

本文链接：https://blog.csdn.net/firehuiplane/article/details/107448043

EWC是一种通过控制权重优化来防止深度学习模型在连续学习新任务时发生灾难性遗忘的方法。它通过在权重上添加正则化项，使关键权重变化较小，保持在旧任务的低误差区域。核心思想包括选择重要权重，应用Fisher信息矩阵来量化权重的重要性，并使用拉普拉斯近似来拟合高斯分布。EWC的损失函数考虑了每个权重对旧任务的重要性，平衡新任务学习和旧任务保留。

概述

原论文地址：https://arxiv.org/pdf/1612.00796.pdf

本博客参考了以下博客的理解
地址：https://blog.csdn.net/dhaiuda/article/details/103967676/

本博客仅是个人对此论文的理解，若有理解不当的地方欢迎大家指正。

本篇论文讲述了一种通过给权重添加正则，从而控制权重优化方向，从而达到持续学习效果的方法。其方法简单来讲分为以下三个步骤，其思想如图所示：

选择出对于旧任务（old task）比较重要的权重
对权重的重要程度进行排序
在优化的时候，越重要的权重改变越小，保证其在小范围内改变，不会对旧任务产生较大的影响

在图中，灰色区域时旧任务的低误差区域，白色为新任务的低误差区域。如果用旧任务的权重初始化网络，用新任务的数据进行训练的话，优化的方向如蓝色箭头所示，离开了灰色区域，代表着其网络失去了在旧任务上的性能。通过控制优化方向，使得其能够处于两个区域的交集部分，便代表其在旧任务与新任务上都有良好的性能。

具体方法为：将模型的后验概率拟合为一个高斯分布，其中均值为旧任务的权重，方差为 Fisher 信息矩阵（Fisher Information Matrix）的对角元素的倒数。方差就代表了每个权重的重要程度。

1. 基础知识

1.1 基本概念

灾难性遗忘（Catastrophic Forgetting）：在网络顺序训练多个任务的时候，对于先前任务的重要权重无法保留。灾难性遗忘是网络结构的必然特征
持续学习：在顺序学习任务的时候，不忘记之前训练过的任务。根据任务A训练网络之后，再根据任务B训练同一个网络，此时对任务A进行测试，还可以维持其性能。

1.2 贝叶斯法则

$\frac{P(A \cap B)}{P(B)}$
$\frac{P(A \cap B)}{P(A)}$
即
$P (A ∣ B) P (B) = P (B ∣ A) P (A)$
所以可以得到
$P(A|B)\frac{P( B)}{P(A)}$

2. Elastic Weight Consolidation

2.1 参数定义

$\theta$ ：网络的参数
$\theta^*_A$ ：对于任务A，网络训练得到的最优参数
$D$ ：全体数据集
$D_A$ ：任务 A 的数据集
$D_B$ ：任务 B 的数据集
$F$ ：Fisher 信息矩阵
$H$ ：Hessian 矩阵

2.2 EWC 方法推导

对于网络来讲，给定数据集，目的是寻找一个最优的参数，即
$P(\theta|D)$
根据贝叶斯准则
$P(A|B)\frac{P( B)}{P(A)}$
可以得到最大后验概率：
$P(\theta|D) = P(D|\theta)\frac{P( \theta)}{P(D)}$
于是可以得到
$\log P(\theta|D) = \log (P(D|\theta)\frac{P( \theta)}{P(D)})=\log P(D|\theta) + \log P( \theta) - \log P(D)$
也就是论文中的公式（1）

如果这是两个任务的顺序学习，旧任务为任务 A，新任务为任务 B，那么可以数据集 $D$ 可以划分为 $D_A$ 和 $D_B$ ，则
$P(\theta|D_A,D_B)=\frac{P(\theta,D_A,D_B)}{P(D_A,D_B)}=\frac{P(\theta,D_B|D_A)P(D_A)}{P(D_B|D_A)P(D_A)}=\frac{P(\theta,D_B|D_A)}{P(D_B|D_A)}$
又因为
$P(\theta,D_B|D_A)=\frac{P(\theta,D_A,D_B)}{P(D_A)}=\frac{P(\theta,D_A,D_B)}{P(\theta,D_A)} \cdot \frac{P(\theta,D_A)}{P(D_A)}=P(D_B|\theta,D_A)P(\theta|D_A)$
所以，可以得到
$P(\theta|D_A,D_B)=\frac{P(\theta,D_B|D_A)}{P(D_B|D_A)}=\frac{P(D_B|\theta,D_A)P(\theta|D_A)}{P(D_B|D_A)}$

最低0.47元/天解锁文章