GCR: GRADIENT CORESET BASED REPLAY BUFFER SELECTION FOR CONTINUAL LEARNING-CSDN博客

本文链接：https://blog.csdn.net/qq_49230659/article/details/125578708

GCR: GRADIENT CORESET BASED REPLAY BUFFER SELECTION FOR CONTINUAL LEARNING

Abstract
1 Introduction
2 Related Work
3 Preliminaries
4 GCR: Methods

Abstract

continual learning旨在用一个模型有效解决增量任务的学习，这篇工作可以看做是基于重演的对抗知识遗忘的方法，提出了一个 Gradient Coreset Replay (GCR)策略来重演被选择的缓存，其中本文选择一个Coreset（核心集），这个核心集尽力近似所有见过的数据的模型的梯度。

1 Introduction

CL任务主要要解决的是灾难遗忘的问题，目前的方法有对loss函数，网络结构，训练过程和数据增广做改进。重演的方法就是把之前见过的数据的一小部分maintain下来，如果使用随机采样，保存1%的原先数据就能对灾难遗忘问题产生很好的效果。和其他基于重演的方法相比，GCR更注重如何选择coreset。
在这里插入图片描述

2 Related Work

本文把CL的方法分为三类，正则和结构调整的方法就不展开介绍了，主要谈一下重演的方法。有些方法加入蒸馏损失（限制参数变化）或使用memory；Meta-Experience Replay (MER)在meta learning方法中在task之间加入惩罚项；Maximally Interfered Retrieval (MIR)通过预测模型更新参数对memory进行检索，然后选择最有利于模型更新的样本重演。
Coreset Selection: 核心集是一个权重数据子集，其近似原始数据的特定属性（loss，grandients，logits），本文关注Coreset的选取问题。
Coresets for Replay-based CL: 和先前的方法相比，本文使用了一个和replay的损失函数直接相关的优化准则；另外用了一个带有权重的核心集选取策略，这个权重是由核心集优化准则决定的。

3 Preliminaries

3.1 Notation

对于本文符号的说明：
$T$ : tasks的数量
$t\in\{1, 2, \dots, T\}$ : task
$D_t$ : task $t$ 的数据集
$\{(x_{it}, y_{it})^{|D_t|}_{i=1}\}$ : 每个数据点， $i$ 指第 $i$ 个样本
$y_t=y_{t1}, y_{t2}, \dots, y_{tn}$ : 每个task都有n个相关的类别，且每个task之间的类别没有重合
$\Omega_\theta(x)$ : 特征层输出
$h_\theta(x)$ : logits输出
$f_\theta(x)=SOFTMAX(h_\theta(x))$
$\mathcal{X}$ : 先前task用于重演的data buffer
$\mathcal{L}_{rep}(\theta, \mathcal X)$ : replay-buffer loss
在这里插入图片描述

3.2 Continual Learning

CL问题的目标和挑战，这里不重复翻译了。

3.3 Replay-based Continual Learning

基于重演方法的训练可以归结为以下公式：
$\argmin_{\theta}\sum_{(x,y)\in{D_t}}l(y, f_{\theta}(x))+\lambda\mathcal L_{rep}(\theta, \mathcal X)$
有些工作会存储与数据点相关的logits(z):
$\mathcal L_{rep}(\theta, \mathcal X)=\sum_{(x,y)\in \mathcal X}(\alpha||z-f_{\theta}(x)||^2+\beta l(y,f_{\theta}(x)))$

4 GCR: Methods

Fig 2就是GCR的overview。本文先构成先前的重演buffer $\mathcal X_{t-1}$ 和当前数据形成的候选池 $\mathcal C_t$ 中。之后的操作都在候选池中操作而不是在当前数据流 $D_t$ 中进行。本文的主要贡献是把选取重演buffer视为基于近似梯度的优化问题

4.1 GradApprox for Replay Buffer Selection

在这里插入图片描述
从论文中这一段可以看到，作者这个loss的组成是对梯度做L2损失，加一个关于权重的正则项。L2损失中前一项是整个数据集，后一项是数据集中挑选出来的子集。
也就是说GradApprox挑选出来的数据子集的加权梯度近似等于整个数据集的梯度。
上面这个式子可以看出是很难把这个优化过程模块化的，因此作者采用近似算法——正交匹配追踪来选取子集和权重。最终选择的buffer中的类别应该是相等的，以保证类别平衡。