【Few-Shot Incremental Learning】SAVC in CVPR 2023 个人理解

一、简介

题目: Learning with Fantasy: Semantic-Aware Virtual Contrastive Constraint for Few-Shot Class-Incremental Learning
会议: CVPR 2023
任务: 给定一批样本充足的初始数据,之后新的数据/任务依次到来,新的数据/任务到来后旧的就不再可获取,并且新的数据相比初始数据可能是稀缺的(例如,初始类别每类可能有100个样本,但新的类别每类可能只有5个样本),要求模型在学习新数据/任务的同时不要忘记旧数据/任务。
Idea✨:
(1)利用初始样本充足的训练数据训练一个强大的特征提取器: 首先,对初始训练样本进行数据增强(不是随机的,增强次数和顺序都是确定的,之后所有增强都按照此方式)以扩充初始数据集;其次,采用MoCo的学习策略构建对比损失结合标准交叉熵分类损失更新模型;最后,扩充版的初始训练数据集经训练好的特征提取器(训练好后冻结)输出特征,并据此计算各初始类别不同增强方式下的原型(特征均值)。
(2)根据测试样本与各类别原型的相似度进行分类: 首先,计算增量训练数据(少样本的)中新增类别的原型(经数据增强和特征提取后得到的特征的均值);其次,对测试样本进行数据增强;然后,将增强后的测试样本输入特征提取器得到特征,并对测试特征和所有原型进行标准化;最后,计算测试特征与各原型的平均相似度(同一增强方式下的测试特征与各类原型各有一个相似度,求同类别不同增强方式下的相似度均值),分类为平均相似度最高的类。
Note⚠️:增量学习常见方法重点处理灾难性遗忘的思路不同,该工作与ALICE一样在处理少样本增量学习时把重点放在了特征提取器的构建,他们认为拥有一个强大泛化能力的特征提取器是成功的关键,实现增量学习只需要保留各类别特征原型(支撑集)即可。

二、详情

1. 特征提取器

特征提取器的训练仅使用有充足样本的初始训练集,它所包含的类与后续出现的少样本增量类无重叠。训练结束后,映射层和分类头会被移除,特征提取器会被冻结。

1.1 数据增强

为了提升特征提取器的泛化能力,作者使用数据增强产生新的类别。增强方式可以是色域变换、模糊、噪声等等,增强方式和顺序一旦确定就不再改变,增强方式序列定义为Fantasy Set,记作 F \mathcal{F} F

于是,对于一个图像-标签对 ( x , y ) (\textbf{x},y) (x,y)来说,就有 F ( x , y ) = { ( x m , y m ) } m = 1 M \mathcal{F}(\textbf{x},y)=\{(\textbf{x}_m,y_m)\}_{m=1}^M F(x,y)={(xm,ym)}m=1M,其中 M M M是增强方式总数, ( x 1 , y 1 ) = ( x , y ) (\textbf{x}_1,y_1)=(\textbf{x},y) (x1,y1)=(x,y) y m = ( y − 1 ) × M + m y_m=(y-1)\times M+m ym=(y1)×M+m

如图是两个类,每类两个样本,经过三次增强得到的结果。可以看到同类别同增强方式下的样本才有相同的标签,同样本不同增强方式下的标签不同,类别原始标签会被改变,例如狗的2改为了4。

除原图外,其余均为增强出来的Fantasy类。作者希望这些Fantasy类在有监督训练时占据特征空间,这些特征空间便能够留给未来的增量类。

1.2 损失

增强后的初始训练样本会被用来训练模型,作者采用了MoCo的自监督学习策略由对比损失和标准交叉熵分类损失进行网络优化。

1.2.1 标准交叉熵分类损失

为确保模型能够有效学习各个类别,作者使用了标准交叉熵分类损失,定义如下:

其中, ϕ = W T f ( x ) \phi=W^Tf(\textbf{x}) ϕ=WTf(x) f ( x ) ∈ R d × 1 f(\textbf{x})\in\mathbb{R}^{d\times1} f(x)Rd×1为特征提取器, f ( x ) ∈ R d × ∣ C 0 ∣ f(\textbf{x})\in\mathbb{R}^{d\times|\mathcal{C}^0|} f(x)Rd×C0为分类头。可以分别计算同一增强方式下的交叉熵损失,然后求平均,所以分类头的长度为 ∣ C 0 ∣ |\mathcal{C}^0| C0

1.2.2 MoCo下的有监督对比损失

为进一步提升特征提取器的泛化能力,作者使用了MoCo的训练策略。

⚠️ MoCo是不需要标签的,这里作者只是用了他的训练策略,实际训练会使用标签,因此是有监督的对比损失。

首先,需要了解MoCo,示意图如下:

其中,encoder是查询网络(Query Network),记作 g q g_q gq,由特征提取器 f ( x ) f(\textbf{x}) f(x)(与1.2.1 标准交叉熵分类损失中的是同一个)和映射头 h h h(在特征提取器后新增的一个分支,与分类头共用 f ( x ) f(\textbf{x}) f(x))组成;momentum encoder是键网络(Key Network),记作 g k g_k gk,与 g q g_q gq结构完全相同,不过是另外建立的网络,有自己的特征提取器和映射头; x q u e r y x^{query} xquery x 0 k e y x_0^{key} x0key x x x两次随机增强的版本(与 F \mathcal{F} F不同,这里的增强不改变标签); x 1 k e y , x 2 k e y , ⋯ x_1^{key},x_2^{key},\cdots x1key,x2key, 是一个队列,长度大于批次长度小于总样本数,由之前批次的训练数据组成,当前批次训练完成后查询数据会被推入队列,队列最前面的数据会被推出; q , k 0 , k 1 , k 2 , ⋯ q,k_0,k_1,k_2,\cdots q,k0,k1,k2,是对应样本经各自encoder输出的特征。

模型优化时,对比损失只会向查询网络方向传递梯度,键网络的更新不是通过梯度传递,而是通过下式:

其中, θ q \theta_q θq θ k \theta_k θk分别是查询网络和键网络的参数, m m m为动量。

可以看出,键网络的更新是自己参数与查询网络参数的加权和,MoCo为 m m m设置了一个大值,例如0.999,来确保键网络参数向查询网络参数缓慢靠近。直白的说,就是希望键网络更新,但是为了稳定不希望键网络更新太快。

然后,来看MoCo的自监督对比损失(Contrastive Loss):

其中, k + = k 0 k_+=k_0 k+=k0 q ⋅ k + q\cdot k_+ qk+为相似度,也可以写作 q T k + q^Tk_+ qTk+。因为是自监督,没有标签,所以自监督学习只能令来自同一样本不同增强方式下的特征 q q q k + k_+ k+彼此接近,与其余样本特征 k 1 , k 2 , ⋯ k_1,k_2,\cdots k1,k2,均远离。

因此,自监督情况下一个训练样本只有一个对比损失。而这项工作是有监督的,为便于理解,我们先来看没有通过 F \mathcal{F} F增强时的有监督对比损失:

其中, A ( x ) = { k 0 , k 1 , k 2 , ⋯   } A(\textbf{x})=\{k_0,k_1,k_2,\cdots\} A(x)={k0,k1,k2,} q q q k 0 k_0 k0仍是来自同一样本的两次随机增强样本的特征; P ( x ) P(\textbf{x}) P(x)则是 A ( x ) A(\textbf{x}) A(x)中与 q {q} q的类别相同的特征子集,显然, k 0 k_0 k0必然是 P ( x ) P(\textbf{x}) P(x)中的一个。

简单来说,自监督情况下, P ( x ) P(\textbf{x}) P(x)中只有一个特征就是 k 0 k_0 k0;有监督情况下,可以从 A ( x ) A(\textbf{x}) A(x)中找到更多与 q q q属于同类的特征,于是 P ( x ) P(\textbf{x}) P(x)中除了有 k 0 k_0 k0还有其它特征。

因此,有监督情况下一个训练样本的损失是多个对比损失的平均。 因为作者是先通过 F \mathcal{F} F做了数据增强再进行对比损失优化的,所以实际损失函数如下:

其中,确认 P ( x m ) P(\textbf{x}_m) P(xm)时应该按照1.1 数据增强后的标签搜索。可以分别计算同一增强方式( F \mathcal{F} F中的)下的有监督对比损失,然后求平均。完整的 x m \textbf{x}_m xm按照上述操作计算出的有监督对比损失被称为全局对比损失,记作 L c o n t _ g l o b a l \mathcal{L}_{cont\_global} Lcont_global

此外,为了进一步增强特征提取器的泛化能力,作者还增加了一个局部对比损失,记作 L c o n t _ l o c a l \mathcal{L}_{cont\_local} Lcont_local L c o n t _ l o c a l \mathcal{L}_{cont\_local} Lcont_local L c o n t _ g l o b a l \mathcal{L}_{cont\_global} Lcont_global的计算有两个区别:

(1)输入的不是完整图像 x m \textbf{x}_m xm,而是截取的 x m \textbf{x}_m xm的切片;
(2)切片经 F \mathcal{F} F增强后仅计算对比损失,不会在训练之后被推入队列。

至此,所有的损失定义完成,形成如下综合损失:

根据此损失可以进行特征提取器 f ( x ) f(\textbf{x}) f(x)、分类头 W W W、查询映射头 h h h的更新,之后再根据 f ( x ) f(\textbf{x}) f(x) h h h缓慢更新 g k g_k gk。训练完成后 f ( x ) f(\textbf{x}) f(x)被冻结, W W W h h h g k g_k gk被丢弃。

2. 少样本增量分类

分类根据特征提取器 f ( x ) f(\textbf{x}) f(x)的输出进行,以与原型的相似度为度量进行分类。

2.1 确定原型

该工作仅为每个类别保留 M M M个不同增强方式下的原型(特征均值),形成 M M M-shot的支撑集。

对于第 t t t阶段的类别 c c c来说,原型计算方式如下:

W c t = { w c m t = 1 n c t ∑ i = 1 n c t f ( x c , i m ) ∣ x c , i m ∈ F ( B c ) } m = 1 M W^t_c=\left\{\pmb{w}_{cm}^t=\frac{1}{n_c^t}\sum_{i=1}^{n_c^t}f(\textbf{x}_{c,im})\bigg|\textbf{x}_{c,im}\in\mathcal{F}(B_c)\right\}_{m=1}^M Wct= wcmt=nct1i=1nctf(xc,im) xc,imF(Bc) m=1M

其中, B c = { x c , i } i = 1 n c t B_c=\{\textbf{x}_{c,i}\}_{i=1}^{n_c^t} Bc={xc,i}i=1nct表示第 t t t阶段类别 c c c n c t n_c^t nct个训练样本;每个样本都会按照 F \mathcal{F} F增强 M M M次,于是有 F ( B c ) = { x c , i m } i = 1 , m = 1 n c t , M \mathcal{F}(B_c)=\{\textbf{x}_{c,im}\}_{i=1,m=1}^{n_c^t,M} F(Bc)={xc,im}i=1,m=1nct,M x c , i m \textbf{x}_{c,im} xc,im x c , i \textbf{x}_{c,i} xc,i的第 m m m个增强版本; w c m t \pmb{w}_{cm}^t wcmt则为 B c B_c Bc使用 F \mathcal{F} F中第 m m m个增强方式得到的样本经 f ( x ) f(\textbf{x}) f(x)输出的特征的均值,即原型。

t = 0 t=0 t=0时,初始训练样本是充足的,它们经 F \mathcal{F} F后先被用来训练模型,再被喂入模型提取特征并计算原型。当 t ≥ 1 t\geq1 t1时,特征提取器已训练完成,虽然新类训练样本稀缺,却可以直接经 F \mathcal{F} F后喂入模型提取特征并计算原型。每个类有 M M M个原型,计算出来并进行归一化后(记作 { w ~ c m } m = 1 M \{\tilde{\pmb{w}}_{cm}\}_{m=1}^M {w~cm}m=1M)就与之前的原型存放到一起,作为支撑集永久保留。

2.2 分类

对于一个测试样本 x \textbf{x} x,经过 F \mathcal{F} F进行 M M M次增强和标准化得到 { x ~ m } m = 1 M \{\tilde{\textbf{x}}_m\}_{m=1}^M {x~m}m=1M。对于 x ~ m \tilde{\textbf{x}}_m x~m,计算其特征与各类同增强方式下的原型的相似度,可以得到 { p c m } c = 1 , m = 1 ∣ C t ∣ , M \{p_{cm}\}_{c=1,m=1}^{|\mathcal{C}^t|,M} {pcm}c=1,m=1Ct,M,其中 p c m = w ~ c m T f ( x ~ m ) p_{cm}=\tilde{\pmb{w}}_{cm}^Tf(\tilde{\textbf{x}}_m) pcm=w~cmTf(x~m) ∣ C t ∣ |\mathcal{C}^t| Ct是当前的类别总数。

那么在类别 c c c上的平均相似度则为 p ˉ c = 1 M ∑ m = 1 M p c m \bar{p}_c=\frac{1}{M}\sum_{m=1}^Mp_{cm} pˉc=M1m=1Mpcm,最后可以通过 arg ⁡ max ⁡ c p ˉ c \mathop{\arg\max}\limits_{c}{\bar{p}_c} cargmaxpˉc判断测试样本 x \textbf{x} x的类别。

总的来说,该工作重心在特征提取上,通过 F \mathcal{F} F进行数据增强和采用MoCo的训练策略进行对比学习得到一个强大的特征提取器是主要贡献。

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fulin_Gao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值