Raki的读paper小记：Dark Experience for General Continual Learning: a Strong, Simple Baseline

最新推荐文章于 2023-01-12 01:32:18 发布

爱睡觉的Raki

最新推荐文章于 2023-01-12 01:32:18 发布

阅读量1.8k

点赞数 2

分类专栏： Continual Learning 读paper 文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/raki_j/article/details/124074452

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

Continual Learning

19 篇文章 3 订阅

订阅专栏

Abstract & Introduction & Related Work

研究任务
通用持续学习
已有方法和相关工作
面临挑战
- 忽略了实际场景的特性，即数据流不能被塑造为任务序列，而且离线训练也不可行
- 我们致力于实现一般持续学习（GCL），在这种情况下，任务边界模糊，领域和类别分布逐渐或突然转变。我们通过将重现与知识蒸馏和正则化相混合来解决这个问题；我们简单的baseline，即黑暗经验重放，与整个优化轨迹中采样的网络对数相匹配，从而促进与它的过去的一致性
创新思路
- 依靠黑暗知识来蒸馏过去的经验，在整个训练轨迹中进行采样
实验结论

大多数比较的方法都不适合现实世界的应用，因为现实世界的内存是有限的，而且任务交织重叠。最近，[11]介绍了一系列CL方法应该实现的准则，以便在实践中适用：

无任务边界：在训练期间不依赖任务之间的边界
无测试时间orcale：在推理时不需要任务识别器
恒定内存：在整个训练阶段有一个有界限的内存足迹

在这里插入图片描述

Dark Experience Replay

给出定义，要优化的项
在这里插入图片描述
理想情况下，我们要寻找能很好地适应当前任务的参数，同时近似于在旧任务中观察到的行为：实际上，我们鼓励网络模仿其对过去样本的原始反应。为了保持对以前任务的了解，我们寻求最小化以下目标
在这里插入图片描述
$\theta^*_t$ 是结束第t个任务时候的最优参数， $\alpha$ 是平衡两者的超参数，这一项像教师-学生方法，需要之前的数据集，为了克服这个限制，引入一个重演缓存来为任务t保留过去的经验

与其他基于排练的方法不同，我们保留了网络的logits $\triangleq h_{θ_t} (x)$ ，而不是真实标签y

在这里插入图片描述
由于我们专注于通用持续学习，我们有意地避免依赖任务边界来填充训练过程中的缓冲区。因此，我们采用水库采样来代替常见的任务分层抽样策略：这样，我们从输入流中选择 $\mathcal{|M|}$ 随机样本，保证它们有相同的概率 $\mathcal{|M|_{/|S|}}$ 被存储在缓冲区中，而不必事先知道流的长度S。我们可以将公式3重写如下
在这里插入图片描述
这样的策略意味着在优化轨迹中挑选对数z，因此可能与在任务的局部最优时观察到的对数不同。即使是反直觉的，我们根据经验观察到，这种策略并不损害性能，同时在没有任务边界的情况下仍然适用。此外，次优逻辑的重放在达到的最小值的平坦性和校准方面有好处

在温和的假设下，公式4中KL散度的优化等同于最小化相应的pre-softmax（即logits）之间的欧氏距离。在这项工作中，我们选择匹配logits，因为它避免了由于挤压函数（如软化函数）而在概率空间发生的信息损失。基于这些考虑，黑暗经验重放（DER，算法1）优化了以下目标

在这里插入图片描述
我们通过计算从重放缓冲区采样的批次的梯度来近似期望值

Dark Experience Replay++。值得注意的是，水库策略在某些特定情况下可能会削弱DER。也就是说，当输入流中发生突然的分布变化时，那些被以前的任务训练严重偏向的logits可能会被抽样用于以后的重放：同时利用真实标签–如ER所做的那样–可以减轻这样的缺陷。基于这些理由，我们还提出了Dark Experience Replay++，它为公式5的目标配备了一个关于缓冲区数据点的附加项，以最小的内存开销促进了对其真实标签的更高条件的可能性
在这里插入图片描述
黑暗经验回放（++）：