论文地址:[2103.16788] DER: Dynamically Expandable Representation for Class Incremental Learning (arxiv.org)
代码地址:https://github.com/Rhyssiyan/DER-ClassIL.pytorch.
本文上海科技大学和中国科学院大学共同发表。发表在CVPR2021. 本文是通过增加模型权值来适应增量任务。也运用了memory,相当于基于rehersal和模型的方法的结合。本文主要的改进在于模型层面。
目录
一、贡献点
1.本文提出了一个two-stages的训练方法,stability-plasticity之间需要进行trade-off
,提出了DER(dynamically expandable representation),对feature进行expand
在每个增量任务时候,都将上一个阶段提取出的特征进行固定,并且运用新的特征提取器再对特征进行提取。
这就使得模型在保持旧任务知识的同时可以获得适用于新增量任务的新知识。
用了这种方法减少存储占用:channel-level mask-based pruning strategy.
2.通过辅助loss使得网络获取更加具有判别性的特征。
3.性能与同类型方法相比达到SOTA,见图1
通过此图可以看出,本文重要的是在模型权重数量和模型准确率之间寻找一个平衡。同样权重增加的情况下,本文的Average Precison达到最佳。
同样的权重数量下,average accuracy越大越好.
增量学习方法的分类
本文在related work里面将增量学习方法总结为了三种:
- regularization-based,例如EWC,将Laplace近似用于避免权重落入局部极小值
- distillation-based,(也可以被认为是Rehersal based)例如iCaRL,EE2L, UCIR, PODNet, TPCIL (PODNet,TPCIL较新,是ICCV2020的文章) 例如:PodNet: PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning论文详解ECCV2020
- Structure-based: 也是本文采用的方法,通过模型结构增加,来实现增量任务的提升。
二、方法
本文采用的结构也是增量学习近些年广泛采用的结构,即特征提取模块与分类器模块相互分离。
2.1 特征提取
数据集{Dt}, 样本(xt, yt),yt为标签, Yt为标签的集合。
两个stage:
representation learning stage: 针对任务t的特征提取模型为фt()
设置auxiliary loss用于使得特征提取模块获得更加diverse and discriminative features
classifier learning stage:定义为H()
将已有数据与memory之中的数据合并进行学习。
公式表示,新任务的特征提取网络ф()相当于旧任务的特征提取网络фt-1()和新训练的特征提取网络F合并,
- 输入样本为x,提取出的特征为u
- ф()表示特征提取网络
- фt-1()表示task t到来之前的特征提取网络
- task t到来之后,新学习的特征提取网络Ft(x)与上一个特征提取网络фt-1()共同提取的特征作为фt
2.2 分类器
分类器阶段的公式为:
很容易理解,将上阶段提取出的特征输出作为分类器的输入
看图可以看出每新来一个task,就新训练一个特征提取网络F,然后并入上一个特征提取网络中作为新的特征提取网络。
其中,mask layer相当于对特征进行采样,从而降低特征维度。
2.3 loss
训练loss:
训练loss即交叉熵,其中D^hat即训练样本与memory中样本的并集。
除此自外,作者引入了auxiliary loss,
根据图2可得,此Loss为针对new-feature的判别器的loss
三、实验
ER代表Expandable representation
Aux表示auxiliary loss
作者在cifar100上进行实验,Ours(w/o)表示没有pruning(即channel-wise mask),channel-wise mask相当于对channel加一个mask,从而减少feature的尺寸,降低存储和运算消耗。
四、评价
本文图1中的性能较好,与其他同类方法对比相当于基于模型的方法,用模型增加和新权重对增量中的new task进行适应。
但是实际上对增量的运用有两个开销的增加,一个是新增权重即model size的增加,另一个是Memory size的增加,文中并没有提及memory size对实验的影响。按照本文的方法,memory的尺寸是越来越多的,但是比较的同类方法的memory size可能是固定的,这种比较可能并不公平。