Continual Learning 经典方法 — Gradient Episodic Memory (GEM)

最新推荐文章于 2024-10-15 09:17:04 发布

JYZhang_sh

最新推荐文章于 2024-10-15 09:17:04 发布

阅读量5.9k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习文章标签：终身学习 GEM Episodic Memory

本文链接：https://blog.csdn.net/JYZhang_CVML/article/details/109458191

机器学习同时被 2 个专栏收录

44 篇文章

订阅专栏

深度学习

33 篇文章

订阅专栏

本文探讨了终身学习背景下灾难性遗忘问题，并提出一种优雅策略：通过不等式约束而非直接优化过往任务表现，来指导模型梯度更新，有效避免了对保存样本的过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 终身学习目标：

缓解灾难性遗忘问题：当数据以online stream的方式训练模型时，训练完 Task 1 之后的模型，在学习 Task 2 的数据时往往会将 Task 1 的知识遗忘，导致在之前训练过的 Task 1 上性能急剧下降。

2. Gradient of Episodic Memory

2.1 什么叫 Episodic Memory

最直观的解决遗忘性问题的方法，就是保存之前训练过任务的数据 (考虑到数据隐私性和计算存储开销的问题，保存的数据量不宜过大) —— 因此将保存好的之前训练过任务的数据称为 Episodic Memory。
Tips: 很 tricky 的是在 continual learning 这个领域中，文章很多时候都是 motivated from 人脑生理结构。在脑生理中这些之前的学习到的知识片段也叫做 episodic memory (情景记忆)。

2.2 算法流程

首先定义 episodic memory $Mk\mathcal{M}_{k}$ ，其中 $k$ 表示之前训练的第 $k$ 个任务。由此，可以定义在 $Mk\mathcal{M}_{k}$ 上的损失函数：
$\ell\left(f_{\theta}, \mathcal{M}_{k}\right)=\frac{1}{\left|\mathcal{M}_{k}\right|} \sum_{\left(x_{i}, k, y_{i}\right) \in \mathcal{M}_{k}} \ell\left(f_{\theta}\left(x_{i}, k\right), y_{i}\right)$
但是直接最小化上述损失函数容易造成模型对 $Mk\mathcal{M}_{k}$ 中的样本过拟合。所以，考虑一个不等式约束，即允许上述损失函数减少即可。正式地，我们定义下面的整体优化目标：
$\begin{aligned} \operatorname{minimize}_{\bar{g}} \frac{1}{2} &\|g-\tilde{g}\|_{2}^{2} \\ \text { subject to } &\left\langle\tilde{g}, g_{k}\right\rangle \geq 0 \text { for all } k<t \end{aligned}$
其中 $g$ 表示当前任务 $t$ 对应的梯度，而 $g~\tilde{g}$ 表示在 L2 范数条件下 $g$ 的投影。上式可以通过二次规划解决。

2.3 总结

从实验结果角度来看，采用 Naive Rehearal 方法时，当 $Mk\mathcal{M}_{k}$ 中样本数量很小时，确实网络容易对其产生严重过拟合，甚至结果还不如 regularization-based 方法如 EWC，SI。
本文从方法上提出了很 elgant 的策略 —— 并不直接优化 $Mk\mathcal{M}_{k}$ 上的结果，而将其作为不等式约束，可以理解成用之前训练的任务对当前训练任务进行正则化，继而修正当前模型更新的梯度方向 (即获得投影结果 $g~\tilde{g}$ )。