用于类别增量学习的动态可扩展表征 -- DER

35 篇文章 2 订阅
25 篇文章 0 订阅

用于类别增量学习的动态可扩展表征 – DER

这次介绍一种类似表征学习的训练方法,用于类别的增量学习,来自于CVPR2021的一篇文章"DER: Dynamically Expandable Representation for Class Incremental Learning"。

首先,我们需要补充一些预先的概念,比如类别增量学习以及表征学习。

类别增量学习

传统的分类学习中,我们通常在训练的时候就有全部的类别,测试的时候也是对全部的类别的数据进行测试。

在现实世界中,我们往往不会在一开始就定义完所有的类别,并且收集对应的所有数据,实际情况是,我们通常拥有一部分类别的数据,然后先训练一个分类器,等到有新的类别,再对网络结构等做出调整,重新进行数据收集、训练和测试。

表征学习/度量学习

表征学习(Representation Learning),抑或是度量学习(Metric Learning),其目的是,学习到数据的一种表征(通常是一个向量的形式),使得同类的表征距离近,异类的表征距离远,这里的距离可以是欧几里得距离等。

在做类别增量学习的时候,我们往往可以复用先前训练好的表征提取器,在新的数据上进行调优(fine-tune)。

这里,文章将表征学习划分成3类:

  • 基于正则化的方法
  • 基于蒸馏的方法
  • 基于结构的方法

基于正则化的方法一般都会有一个较强的假设,其主要是根据估计的方法,对参数进行微调。

基于蒸馏的方法则是会依赖于所使用的数据的数量和质量。

基于结构的方法,会引入额外的新的参数进来,用来对新类别的数据进行建模。

上述这个分类其实不够充分,如果利用传统的度量学习学习一个“前端”,用来抽取特征,然后对后端分类器微调也是一种方法,但这篇文章似乎没有讨论这种方法。

基本流程

pipeline

如上图所示,其实就是一个特征拼接的过程,首先,我们利用一部分类别的数据进行训练,得到一个特征抽取器 Φ t − 1 \Phi_{t-1} Φt1,对于一个新的特征 F t \mathcal{F}_t Ft , 给定一张图片 x ∈ D ~ t x\in \tilde{\mathcal{D}}_t xD~t , 拼接后的特征可以表示为:
u = Φ t ( x ) = [ Φ t − 1 ( x ) , F t ( x ) ] u = \Phi_{t}(x)=[\Phi_{t-1}(x), \mathcal{F}_t(x)] u=Φt(x)=[Φt1(x),Ft(x)]
然后该特征会输入到一个分类器 H t \mathcal{H}_t Ht上, 输出为:
p H t ( y ∣ x ) = S o f t m a x ( H t ( u ) ) p_{\mathcal{H}_t}(y|x)=Softmax(\mathcal{H}_t(u)) pHt(yx)=Softmax(Ht(u))
预测结果为:
y ^ = arg ⁡ max ⁡ p H t ( y ∣ x ) \hat{y} = \arg\max p_{\mathcal{H}_t}(y|x) y^=argmaxpHt(yx)
所以,基础的训练误差为简单的交叉熵误差:
L H t = − 1 ∣ D ~ t ∣ ∑ i = 1 ∣ D ~ t ∣ log ⁡ ( p H t ( y = y i ∣ x i ) ) \mathcal{L}_{\mathcal{H}_t}=-\frac{1}{|\tilde{\mathcal{D}}_t|}\sum_{i=1}^{|\tilde{\mathcal{D}}_t|}\log(p_{\mathcal{H}_t}(y=y_i|x_i)) LHt=D~t1i=1D~tlog(pHt(y=yixi))
我们将分类器 H t \mathcal{H}_t Ht 替换为对于新类别特征的分类器 H a \mathcal{H}_a Ha , 可以得到一个针对新类别特征的误差 L H a \mathcal{L}_{\mathcal{H}_a} LHa

融合的误差形式为;
L E R = L H t + λ a L H a \mathcal{L}_{ER} = \mathcal{L}_{\mathcal{H}_t} + \lambda_a\mathcal{L}_{\mathcal{H}_a} LER=LHt+λaLHa
为了降低类别增量带来的参数增量,这里引入了一种Mask机制,即学习一个Mask,对通道进行Mask,用一个变量 e l e_l el 进行控制。
f l ′ = f l ⊙ m l m l = σ ( s e l ) f_l'=f_l\odot m_l\\ m_l=\sigma(se_l) fl=flmlml=σ(sel)
其中 σ ( ⋅ ) \sigma(\cdot) σ() 表示sigmoid激活函数, s s s 是一个缩放系数。

引入一个稀疏性误差,用来鼓励模型去尽可能地压缩参数,Mask掉更多的通道:
L S = ∑ l = 1 L K l ∣ ∣ m l − 1 ∣ ∣ 1 ∣ ∣ m l ∣ ∣ 1 ∑ l = 1 L K l c l − 1 c l \mathcal{L}_S = \frac{\sum_{l=1}^LK_l||m_{l-1}||_1||m_l||_1}{\sum_{l=1}^LK_lc_{l-1}c_{l}} LS=l=1LKlcl1cll=1LKlml11ml1
其中, L L L 是层的数量, K l K_l Kl 是第 l l l 层卷积的Kernel Size。

最终,得到一个综合的误差表达式:
L D E R = L H t + λ a L H t a + λ s L S \mathcal{L}_{DER} = \mathcal{L}_{\mathcal{H}_t} +\lambda_a\mathcal{L}_{\mathcal{H}_t^a} + \lambda_s\mathcal{L}_S LDER=LHt+λaLHta+λsLS

实验分析

首先是数据集的设置,采用的是三个数据集:

  • CIFAR-100
  • ImageNet-1000
  • Imagenet-100

对于CIFAR-100的100类,会根据5,10,20,50个增量过程来进行训练。这里,对于5个增量过程,也就是每一次会增加20类新的类别数据。这样的数据集分割方法记作CIFAR100-B0。

另外的一种增量方式是,先在50类上进行训练,然后剩下的50类,根据2、5、10个增量过程进行训练。记作CIFAR100-B50。

我们这里仅给出CIFAR-100数据集的结果,更为详细的,可以查看该论文。

cifar

如上图所示,该方法最终的平均正确率超过了其他增量学习的方法。需要注意的是,当使用Mask机制是,也就是利用Mask的结果对参数进行裁剪,得到的模型在参数量上降低的很多,正确率仍然能够保持。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值