【Few-Shot Incremental Learning】SAVC in CVPR 2023 个人理解

Fulin_Gao

于 2023-12-21 16:29:45 发布

阅读量1.2k

点赞数 22

分类专栏： Few-Shot Incremental Learning 文章标签：分类计算机视觉

本文链接：https://blog.csdn.net/beginner1207/article/details/135113943

版权

Few-Shot Incremental Learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、简介

题目： Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental Learning
会议： CVPR 2023
任务： 给定一批样本充足的初始数据，之后新的数据/任务依次到来，新的数据/任务到来后旧的就不再可获取，并且新的数据相比初始数据可能是稀缺的（例如，初始类别每类可能有100个样本，但新的类别每类可能只有5个样本），要求模型在学习新数据/任务的同时不要忘记旧数据/任务。
Idea✨：
（1）利用初始样本充足的训练数据训练一个强大的特征提取器： 首先，对初始训练样本进行数据增强（不是随机的，增强次数和顺序都是确定的，之后所有增强都按照此方式）以扩充初始数据集；其次，采用MoCo的学习策略构建对比损失结合标准交叉熵分类损失更新模型；最后，扩充版的初始训练数据集经训练好的特征提取器（训练好后冻结）输出特征，并据此计算各初始类别不同增强方式下的原型（特征均值）。
（2）根据测试样本与各类别原型的相似度进行分类： 首先，计算增量训练数据（少样本的）中新增类别的原型（经数据增强和特征提取后得到的特征的均值）；其次，对测试样本进行数据增强；然后，将增强后的测试样本输入特征提取器得到特征，并对测试特征和所有原型进行标准化；最后，计算测试特征与各原型的平均相似度（同一增强方式下的测试特征与各类原型各有一个相似度，求同类别不同增强方式下的相似度均值），分类为平均相似度最高的类。
Note⚠️： 与增量学习常见方法重点处理灾难性遗忘的思路不同，该工作与ALICE一样在处理少样本增量学习时把重点放在了特征提取器的构建，他们认为拥有一个强大泛化能力的特征提取器是成功的关键，实现增量学习只需要保留各类别特征原型（支撑集）即可。

二、详情

1. 特征提取器

特征提取器的训练仅使用有充足样本的初始训练集，它所包含的类与后续出现的少样本增量类无重叠。训练结束后，映射层和分类头会被移除，特征提取器会被冻结。

1.1 数据增强

为了提升特征提取器的泛化能力，作者使用数据增强产生新的类别。增强方式可以是色域变换、模糊、噪声等等，增强方式和顺序一旦确定就不再改变，增强方式序列定义为Fantasy Set，记作 $\mathcal{F}$ 。

于是，对于一个图像-标签对 $(\textbf{x},y)$ 来说，就有 $\mathcal{F}(\textbf{x},y)=\{(\textbf{x}_m,y_m)\}_{m=1}^M$ ，其中 $M$ 是增强方式总数， $(\textbf{x}_1,y_1)=(\textbf{x},y)$ ， $y_m=(y-1)\times M+m$ 。

如图是两个类，每类两个样本，经过三次增强得到的结果。可以看到同类别同增强方式下的样本才有相同的标签，同样本不同增强方式下的标签不同，类别原始标签会被改变，例如狗的2改为了4。

除原图外，其余均为增强出来的Fantasy类。作者希望这些Fantasy类在有监督训练时占据特征空间，这些特征空间便能够留给未来的增量类。

1.2 损失

增强后的初始训练样本会被用来训练模型，作者采用了MoCo的自监督学习策略由对比损失和标准交叉熵分类损失进行网络优化。

1.2.1 标准交叉熵分类损失

为确保模型能够有效学习各个类别，作者使用了标准交叉熵分类损失，定义如下：

其中， $\phi=W^Tf(\textbf{x})$ ， $f(\textbf{x})\in\mathbb{R}^{d\times1}$ 为特征提取器， $f(\textbf{x})\in\mathbb{R}^{d\times|\mathcal{C}^0|}$ 为分类头。可以分别计算同一增强方式下的交叉熵损失，然后求平均，所以分类头的长度为 $|\mathcal{C}^0|$ 。

1.2.2 MoCo下的有监督对比损失

为进一步提升特征提取器的泛化能力，作者使用了MoCo的训练策略。

⚠️ MoCo是不需要标签的，这里作者只是用了他的训练策略，实际训练会使用标签，因此是有监督的对比损失。

首先，需要了解MoCo，示意图如下：

其中，encoder是查询网络（Query Network），记作 $g_q$ ，由特征提取器 $f(\textbf{x})$ （与1.2.1 标准交叉熵分类损失中的是同一个）和映射头 $h$ （在特征提取器后新增的一个分支，与分类头共用 $f(\textbf{x})$ ）组成；momentum encoder是键网络（Key Network），记作 $g_k$ ，与 $g_q$ 结构完全相同，不过是另外建立的网络，有自己的特征提取器和映射头； $x^{query}$ 和 $x_0^{key}$ 是 $x$ 两次随机增强的版本（与 $\mathcal{F}$ 不同，这里的增强不改变标签）； $x_1^{key},x_2^{key},\cdots$ 是一个队列，长度大于批次长度小于总样本数，由之前批次的训练数据组成，当前批次训练完成后查询数据会被推入队列，队列最前面的数据会被推出； $q,k_0,k_1,k_2,\cdots$ 是对应样本经各自encoder输出的特征。

模型优化时，对比损失只会向查询网络方向传递梯度，键网络的更新不是通过梯度传递，而是通过下式：

其中， $\theta_q$ 和 $\theta_k$ 分别是查询网络和键网络的参数， $m$ 为动量。

可以看出，键网络的更新是自己参数与查询网络参数的加权和，MoCo为 $m$ 设置了一个大值，例如0.999，来确保键网络参数向查询网络参数缓慢靠近。直白的说，就是希望键网络更新，但是为了稳定不希望键网络更新太快。

然后，来看MoCo的自监督对比损失（Contrastive Loss）：

其中， $k_+=k_0$ ； $q\cdot k_+$ 为相似度，也可以写作 $q^Tk_+$ 。因为是自监督，没有标签，所以自监督学习只能令来自同一样本不同增强方式下的特征 $q$ 和 $k_+$ 彼此接近，与其余样本特征 $k_1,k_2,\cdots$ 均远离。

因此，自监督情况下一个训练样本只有一个对比损失。而这项工作是有监督的，为便于理解，我们先来看没有通过 $\mathcal{F}$ 增强时的有监督对比损失：

其中， $A(\textbf{x})=\{k_0,k_1,k_2,\cdots\}$ ； $q$ 与 $k_0$ 仍是来自同一样本的两次随机增强样本的特征； $P(\textbf{x})$ 则是 $A(\textbf{x})$ 中与 ${q}$ 的类别相同的特征子集，显然， $k_0$ 必然是 $P(\textbf{x})$ 中的一个。

简单来说，自监督情况下， $P(\textbf{x})$ 中只有一个特征就是 $k_0$ ；有监督情况下，可以从 $A(\textbf{x})$ 中找到更多与 $q$ 属于同类的特征，于是 $P(\textbf{x})$ 中除了有 $k_0$ 还有其它特征。

因此，有监督情况下一个训练样本的损失是多个对比损失的平均。 因为作者是先通过 $\mathcal{F}$ 做了数据增强再进行对比损失优化的，所以实际损失函数如下：

其中，确认 $P(\textbf{x}_m)$ 时应该按照1.1 数据增强后的标签搜索。可以分别计算同一增强方式（ $\mathcal{F}$ 中的）下的有监督对比损失，然后求平均。完整的 $\textbf{x}_m$ 按照上述操作计算出的有监督对比损失被称为全局对比损失，记作 $\mathcal{L}_{cont\_global}$ 。

此外，为了进一步增强特征提取器的泛化能力，作者还增加了一个局部对比损失，记作 $\mathcal{L}_{cont\_local}$ 。 $\mathcal{L}_{cont\_local}$ 与 $\mathcal{L}_{cont\_global}$ 的计算有两个区别：

（1）输入的不是完整图像 $\textbf{x}_m$ ，而是截取的 $\textbf{x}_m$ 的切片；
（2）切片经 $\mathcal{F}$ 增强后仅计算对比损失，不会在训练之后被推入队列。

至此，所有的损失定义完成，形成如下综合损失：

根据此损失可以进行特征提取器 $f(\textbf{x})$ 、分类头 $W$ 、查询映射头 $h$ 的更新，之后再根据 $f(\textbf{x})$ 和 $h$ 缓慢更新 $g_k$ 。训练完成后 $f(\textbf{x})$ 被冻结， $W$ 、 $h$ 、 $g_k$ 被丢弃。

2. 少样本增量分类

分类根据特征提取器 $f(\textbf{x})$ 的输出进行，以与原型的相似度为度量进行分类。

2.1 确定原型

该工作仅为每个类别保留 $M$ 个不同增强方式下的原型（特征均值），形成 $M$ -shot的支撑集。

对于第 $t$ 阶段的类别 $c$ 来说，原型计算方式如下：

$W^t_c=\left\{\pmb{w}_{cm}^t=\frac{1}{n_c^t}\sum_{i=1}^{n_c^t}f(\textbf{x}_{c,im})\bigg|\textbf{x}_{c,im}\in\mathcal{F}(B_c)\right\}_{m=1}^M$

其中， $B_c=\{\textbf{x}_{c,i}\}_{i=1}^{n_c^t}$ 表示第 $t$ 阶段类别 $c$ 的 $n_c^t$ 个训练样本；每个样本都会按照 $\mathcal{F}$ 增强 $M$ 次，于是有 $\mathcal{F}(B_c)=\{\textbf{x}_{c,im}\}_{i=1,m=1}^{n_c^t,M}$ ， $\textbf{x}_{c,im}$ 为 $\textbf{x}_{c,i}$ 的第 $m$ 个增强版本； $wcmt \pmb{w}_{cm}^t$ 则为 $B_c$ 使用 $\mathcal{F}$ 中第 $m$ 个增强方式得到的样本经 $f(\textbf{x})$ 输出的特征的均值，即原型。

当 $t = 0$ 时，初始训练样本是充足的，它们经 $\mathcal{F}$ 后先被用来训练模型，再被喂入模型提取特征并计算原型。当 $t\geq1$ 时，特征提取器已训练完成，虽然新类训练样本稀缺，却可以直接经 $\mathcal{F}$ 后喂入模型提取特征并计算原型。每个类有 $M$ 个原型，计算出来并进行归一化后（记作 $\{\tilde{\pmb{w}}_{cm}\}_{m=1}^M$ ）就与之前的原型存放到一起，作为支撑集永久保留。

2.2 分类

对于一个测试样本 $\textbf{x}$ ，经过 $\mathcal{F}$ 进行 $M$ 次增强和标准化得到 $\{\tilde{\textbf{x}}_m\}_{m=1}^M$ 。对于 $\tilde{\textbf{x}}_m$ ，计算其特征与各类同增强方式下的原型的相似度，可以得到 $\{p_{cm}\}_{c=1,m=1}^{|\mathcal{C}^t|,M}$ ，其中 $p_{cm}=\tilde{\pmb{w}}_{cm}^Tf(\tilde{\textbf{x}}_m)$ ， $|\mathcal{C}^t|$ 是当前的类别总数。

那么在类别 $c$ 上的平均相似度则为 $\bar{p}_c=\frac{1}{M}\sum_{m=1}^Mp_{cm}$ ，最后可以通过 $\mathop{\arg\max}\limits_{c}{\bar{p}_c}$ 判断测试样本 $\textbf{x}$ 的类别。

总的来说，该工作重心在特征提取上，通过 $\mathcal{F}$ 进行数据增强和采用MoCo的训练策略进行对比学习得到一个强大的特征提取器是主要贡献。

Fulin_Gao

关注

22
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Few-Shot Incremental Learning】SAVC in CVPR 2023 个人理解

Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental Learning in CVPR 2023的重心在特征提取上，通过Fantasy Set进行数据增强和采用MoCo的训练策略进行对比学习得到一个强大的特征提取器是主要贡献。
复制链接

扫一扫