论文阅读Mark(一)Generative Feature Replay For Class-Incremental Learning CVPR2020【Xialei Liu,Chenshen Wu】

原论文:arxiv

研究问题:Catastrophic Forgetting

文章提出了一种“新”的持续学习方法。构造了一个结合特征生成重放特征蒸馏的模型。
文中作者论证了其模型的高效计算能力以及易于扩展到大的数据集上的优点。

文章创新点

  1. 使用生成特征而不是生成数据(图像)的形式来对过去学习过的旧数据进行回放。
    其原因是抽象出来的图像特征分布比图像的像素分布简单的多。
  2. 得益于使用生成特征的方法,存储的数据量远远小于使用生成数据的方法,节省了大量空间。

模型网络构成

  1. 特征提取器,包含特征蒸馏器
  2. 分类器,包含特征生成重放

Figures & Tables

feature correlation

模型训练图

proposed model
F t F_t Ft是特征提取器, H t H_t Ht是分类器。

模型训练算法

Training Algorithm
模型在训练时,首先第一轮初始化 F 1 , H 1 , G 1 F_1,H_1,G_1 F1,H1,G1。利用真实数据D 来训练F和H,将F的结果作为G的输入。
因为G是用来生成特征图而不是图像数据。

训练F:用真实数据分布D来训练特征提取器F,提取图像的特征
训练H:接收F产生的特征图,以及G生成的特征图,以此来进行训练。训练目标是判断输入的特征图属于哪一类;并能够区分该特征图是F提取的还是G生成的。
训练G:利用F产生的特征图和上一次迭代的G产生的特征图进行训练。训练目标是最小化与F产生的特征图的loss;并且记住上一次迭代中已学到的知识。

Loss Functions

L D t W G A N ( X t ) = + E z ∼ p z , c ∈ C t [ D t ( c , G t ( c , z ) ) ] − E u ∼ D t [ D t ( c , F t ( x ) ) ] L G t W G A N ( X t ) = − E z ∼ p z , c ∈ C t [ D t ( c , G t ( c , z ) ) ] \begin{aligned} \mathcal{L}_{D_{t}}^{\mathrm{WGAN}}\left(\mathcal{X}_{t}\right)= & +\mathbb{E}_{\mathbf{z} \sim p_{z}, c \in C_{t}}\left[D_{t}\left(c, G_{t}(c, \mathbf{z})\right)\right] -\mathbb{E}_{\mathbf{u} \sim \mathcal{D}_{t}}\left[D_{t}\left(c, F_{t}(\mathbf{x})\right)\right] \\ \mathcal{L}_{G_{t}}^{\mathrm{WGAN}}\left(\mathcal{X}_{t}\right)= & -\mathbb{E}_{\mathbf{z} \sim p_{z}, c \in C_{t}}\left[D_{t}\left(c, G_{t}(c, \mathbf{z})\right)\right] \\ \end{aligned} LDtWGAN(Xt)=LGtWGAN(Xt)=+Ezpz,cCt[Dt(c,Gt(c,z))]EuDt[Dt(c,Ft(x))]Ezpz,cCt[Dt(c,Gt(c,z))]

Replay alignment loss

L G t R A = Σ j = 1 t − 1 Σ c ∈ C j E z ∼ p z [ ∥ G t ( c , z ) − G t − 1 ( c , z ) ∥ 2 2 ] . \mathcal{L}_{G_{t}}^{\mathrm{RA}}=\Sigma_{j=1}^{t-1} \Sigma_{c \in C_{j}} \mathbb{E}_{\mathbf{z} \sim p_{\mathbf{z}}}\left[\left\|G_{t}(c, \mathbf{z})-G_{t-1}(c, \mathbf{z})\right\|_{2}^{2}\right] . LGtRA=Σj=1t1ΣcCjEzpz[Gt(c,z)Gt1(c,z)22].

实验部分

Result on ImageNet-Subset

ImageNet-Subset
由上图可以看出,作者提出的模型在ImageNet上效果非常好,比reblance 和作者自己的另一个模型(采用Gaussian replay)更好。作者的模型在训练过程中,不需要存储任何过去任务的样本,而且能够动态的结合当前任务的真实数据由G生成特征图。

Results on CIFAR-100

CIFAR-100
由上图可以看出,在CIFAR-100上,作者的模型相比Rebalance而言,差距已然缩小了许多,在25-tasks设置的训练中,甚至比Rebanlace差一点;而相比作者的另一个模型(采用Gaussian replay)差距仍然明显。

作者解释说在低分辨率的图像上提取的特征不够好,可能是ImageNet数据的分辨率比CIFAR-100的要高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值