小全读论文《Learning without Forgetting》TPAMI 2017

最新推荐文章于 2023-11-10 09:49:55 发布

FatMigo

最新推荐文章于 2023-11-10 09:49:55 发布

阅读量2.7k

点赞数 4

本文链接：https://blog.csdn.net/FatMigo/article/details/101310613

版权

《Learning without Forgetting》

一、介绍

这篇文章的论文版本发表于ECCV2016，会议版本发表于TPAMI2017，本文是针对会议版本进行展开。

本文关注的问题是我们现在有一个训练好的网络，现在遇到了一些新的类别和样本，如何在不接触原有类别的数据的情况下，训练出一个新的网络，它在旧的类别和新的类别上都能有比较好的性能。这个问题其实也被称为“增量学习”（incremental learning）。

二、相关方法

本文阐述了解决该类问题的几种方法：

（记 $\Theta _s$ 、 $\Theta_o$ 和 $\Theta_n$ 分别为特征提取层、旧任务的分类器参数和新任务的分类器参数，旧任务指刚开始网络接触到的数据任务，新任务指后来遇到的数据任务）

Feature Extraction：固定 $\Theta _s$ 和 $\Theta_o$ ，只训练 $\Theta_n$

Fine-tuning：固定 $\Theta_o$ ，训练 $\Theta _s$ 和 $\Theta_n$

Fine-tuning FC：固定 $\Theta_o$ ，训练 $\Theta _s$ 和 $\Theta_n$ ，但是不是训练 $\Theta _s$ 的所有参数，只训练 $\Theta _s$ 的部分参数，如最后的FC层

Duplicating and fine- tuning：利用新任务的数据训练 $\Theta _s$ 和 $\Theta_n$ ，相当于旧任务和新任务有两个独立的子网络

Joint Training：训练 $\Theta_o$ 、 $\Theta _s$ 和 $\Theta_n$

三、本文方法

对于一个新模型来说，新模型包含了两个分类器 $\Theta_o$ 和 $\Theta_n$ ，本文通过知识蒸馏的方法让新数据在新模型 $\Theta_o$ 的响应尽可能地保留旧模型的响应，具体是说：

首先，对于一张新数据的输入图片，提取其在旧模型上最后一层的响应，即对于每一类上的置信度（注意：因为旧模型只涉及到旧数据的类别，该置信度只包含旧数据类别）

然后，新的模型包含了两个分类器 $\Theta_o$ 和 $\Theta_n$ ，本文定义了两个loss

$\iota_{new}(y_n, \widehat{y_n}) = -y_n * log(\widehat{y_n})$ , 其中 $y_n, \widehat{y_n}$ 分别表示输入图片的gt和模型的预测置信度

$\iota_{old}(y_n, \widehat{y_n}) = -\sum_{i=1}^{l}y_o^{'(i)} * log(\widehat{y}_o^{'(i)})$ ，其中 $y_o^{'(i)}, \widehat{y}_o^{'(i)}$ 分别表示在旧的标签类别上，输入图片在旧模型和新模型的输出置信度，l表示旧标签类别的数量

第一个loss的作用是使新模型能适应新的数据，第二个loss的作用是使新模型能保留旧模型上的一些信息。在训练过程中，整个网络的所有参数 $\Theta _s$ 、 $\Theta_o$ 和 $\Theta_n$ 都会更新。

FatMigo

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
小全读论文《Learning without Forgetting》TPAMI 2017

《Learning without Forgetting》一、介绍这篇文章的论文版本发表于ECCV2016，会议版本发表于TPAMI2017，本文是针对会议版本进行展开。本文关注的问题是我们现在有一个训练好的网络，现在遇到了一些新的类别和样本，如何在不接触原有类别的数据的情况下，训练出一个新的网络，它在旧的类别和新的类别上都能有比较好的性能。这个问题其实也被称为“增量学习”（incre...
复制链接

扫一扫