深度学习论文笔记（增量学习）——End-to-End Incremental Learning

最新推荐文章于 2024-08-08 03:46:49 发布

菜到怀疑人生

最新推荐文章于 2024-08-08 03:46:49 发布

阅读量5.7k

点赞数 8

分类专栏：增量学习文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/102851446

版权

增量学习专栏收录该内容

11 篇文章 33 订阅

订阅专栏

文章目录

前言
主要工作
算法介绍
实验
- Fixed memory size
- Fixed number of samples
Ablation studies
个人理解

前言

我将看过的增量学习论文建了一个github库，方便各位阅读地址

主要工作

论文提出了一种算法，以解决增量学习中的灾难性遗忘问题，与iCaRL将特征提取器的学习与分类器分开不同，本论文提出的算法通过引入新定义的loss以及finetuning过程，在有效抵抗灾难性遗忘的前提下，允许特征提取器与分类器同时学习。

本论文提出的方法需要 $e x a m p l a r$

算法介绍

总体流程

在这里插入图片描述
总体分为四个流程

构建训练数据
模型训练
finetuning
管理 $e x a m p l a r$

步骤一：构建训练数据

训练数据由新类别数据与examplar构成。

设有 $n$ 个旧类别， $m$ 个新类别，每个训练数据都有两个标签，第 $i$ 个训练数据的标签为

使用onehot编码的 $1 * (m + n)$ 的向量 $p_i$
设旧模型为 $F_{t-1}$ ，训练数据为 $x$ ， $q_i=F_{t-1}(x)$ ， $q_i$ 为一个 $1 * n$ 维的向量

步骤二：模型训练

模型可以选用常见的CNN网络，例如ResNet32等，按照国际惯例，这一节会介绍distillation loss，作为一篇被顶会接收的论文，自然不能免俗

loss函数介绍

符号约定

符号名	含义
$N$	有 $N$ 个训练数据
$p_i$	含义查看上一节
$q_i$	含义查看上一节
$\hat q_i$	新模型旧类别分支的输出，为一个 $1 * n$ 的向量
$n$	旧类别分支
$m$	新类别分支
$o_i$	新模型对于第 $i$ 个数据的输出，为一个 $(n + m) * 1$ 的向量

Classification loss即交叉熵，如下：

$L_C(w)=-\frac{1}{N}\sum_{i=1}^N\sum_{j=1}^{n+m}p_{ij}*softmax(o_{ij})$

其中
$softmax(o_{ij})=\frac{e^{o_{ij}}}{\sum_{j=1}^{n+m}e^{o_{ij}}}$

distillation loss的形式如下

$L_D(w)=-\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{n}pdist_{ij}\log qdist_{ij}$

其中
$pdist_{ij}=\frac{e^{\frac{\hat q_{ij}}{t}}}{\sum_{j=1}^{n}e^{\frac{\hat q_{ij}}{t}}}\\ qdist_{ij}=\frac{e^{\frac{q_{ij}}{t}}}{\sum_{j=1}^{n}e^{\frac{q_{ij}}{t}}}$