Faster ILOD：Incremental Learning for Object Detectors based on Faster RCNN-CSDN博客

本文链接：https://blog.csdn.net/qq_63379469/article/details/124631545

Abstract

目的：
利用知识蒸馏技术设计一种高效的端到端增量目标检测器
工作：
评估和分析了基于RPN（区域建议网络）的检测器在增量检测任务中的性能。
引入多网络自适应蒸馏，在为新任务微调模型时适当保留旧类别的知识。
在基准数据集PASCAL VOC和COCO上的实验表明，基于Faster RCNN的增量检测器的精度更高，比基线检测器快13倍。

一、Introduction

最先进的目标检测器的表现与人类视觉系统之间的差距仍然很大，主要问题在于会导致灾难性遗忘。
为了弥补灾难性遗忘和正常完整数据集训练之间的性能差距：
Shmelkov等人（2017年）提出了一种使用知识蒸馏的增量目标检测器。基于被取代Fast-RCNN检测器，该检测器使用外部固定提议生成器而不是CNN，因此培训不是端到端的。
最近的Faster-RCNN使用可训练区域建议网络（RPN）来提高准确性和速度。基于RPN的方法对于增量学习来说是脆弱的，因为RPN检测器在重新训练期间，未标记的旧类目标被视为背景，这可能会对旧类上的RPN建议产生不利影响。
为了解决基于RPN的检测器增量学习的挑战：
首先分析了RPN在增量检测缺失注释问题上的能力。
然后，我们提出了一个增量式的框架，Faster-ILOD，使用多网络自适应蒸馏来提高性能
本文的贡献如下：
我们发现，由于其独特的锚框选择方案，在增量检测场景中，RPN能够在一定程度上容忍旧类目标缺少注释。
为了进一步提高增量目标检测器的精度，设计了多网络自适应蒸馏算法。
使用Faster RCNN (Ren et al.， 2015)作为基本网络，我们在PASCAL VOC (Everingham et al.， 2010)和COCO (Lin et al.， 2014)数据集上展示了我们的模型在几个增量检测设置下的卓越性能。
我们的框架是通用的，可以应用于使用RPN的任何目标检测器。

二、 Problem Formulation

增量学习由S个增量步骤组成，在每个增量步骤中，只有一批新类(Cn)的训练数据是可访问的，给定一个某些旧类(Co)图像训练的目标检测模型，增量目标检测的任务是重新训练模型，以在检测新类(Cn)的同时保持旧类(Co)的检测。将原始模型称为旧模型（教师模型），将再训练模型称为新模型（学生模型）。
在本文中，针对具有挑战性的现实生活增量检测场景如下：
在每个增量培训步骤中，只有新类别的训练数据可用；旧类的代表性数据示例不可用。（以前增量步骤中的类）
新检测任务的训练图像中可能出现旧类的目标;但是，没有提供这些旧类目标的注释。
重新训练的检测器应该有能力从新类和旧类（在之前所有增量步骤中训练的类）中检测对象

三、 Related Work

工作重点是将知识蒸馏（KD）应用于基于RPN的目标检测器，以提高增量场景中的速度和准确性
本节内容：
介绍KD的背景
讨论其在增量学习场景中的应用
知识蒸馏（KD，Knowledge Distillation）：将一个模型的知识转移到另一个模型

3.1 Knowledge Distillation

知识蒸馏（KD）用于分类模型压缩，模型压缩将从源模型学到的知识转移到小目标模型。
KD的关键是，错误答案的相对概率可以揭示不同类别之间的潜在关系。（例如，在手写7比8更容易与1混淆。）因此，在模型压缩时，通过源模型的输出（而不是groundtruth标签）来训练目标模型是有利的。
Romero等人(2015)提出了提示学习来提高模型压缩性能，即从源模型的特征图中提取信息。
Chen 等人（2017）采用Hinton 等人（2015）的蒸馏方法和Romero 等人（2015）的提示学习来检测模型压缩。
Heo等人(2019)提出了一种pre-ReLU特征蒸馏方法，以提高模型压缩的蒸馏质量。

3.2 KD based Incremental Learning Method

KD方法能够将一个模型的知识转移到另一个模型，已成为增量学习最常用的工具之一。

讨论了：

增量分类的相关方法

增量检测的方法。

Li和Hoiem（2017）将KD应用于增量学习，构建了一个称为LwF的增量分类器。LwF方法不需要存储任何旧数据，并使用KD作为损失函数的附加正则化项，迫使新模型在旧任务上遵循旧模型的行为。
Zhou等人(2019)提出了M2KD的多模型蒸馏方法，该方法直接将当前分类模型的类别输出与相应的旧模型的类别输出进行匹配。利用掩码剪枝对M2KD中的旧模型进行压缩。
Rebuffi等人（2017年）介绍基于KD的增量分类方法，称为iCaRL。iCaRL通过基于羊群效应从每个旧类中选择具有代表性的样本来存储一些旧数据。将存储的旧样本和新数据结合起来训练新模型。由于只存储有限的示例，由于新旧类之间的数据大小不平衡，因此存在对新类的预测偏差。
Castro等人（2018年）在增量学习过程中保留所有最终的分类层进行蒸馏，以缓解这种数据不平衡。
Wu等人（2019a）建议使用一些平衡的新旧数据批次来训练模型输出的额外两个参数偏移量，以消除偏差。
Shmelkov等人（2017）采用LwF的增量分类方法，在没有旧数据的情况下提出了一种增量目标检测器。称这种方法为增量学习目标检测器（ILOD）。
ILOD基于Faster-RCNN检测器，使用外部建议框生成器。选择Fast RCNN的外部固定建议框生成器，确保建议框与目标类别无关。EdgeBox或MCG生成区域建议框。
Hao等人（2019）提出了一种端到端增量目标检测器。在实验中，他们将数据类划分为多个类组，并训练他们的模型以逐步学习类组。对于每个类组的训练和测试，他们特别忽略了包含来自多个类组的目标的所有图像。此过程人为地确保新类的训练图像不包含任何旧目标，从而避免缺少注释的问题。然而，在实际应用中，输入图像很可能包含来自旧类和新类的目标。
Chen等人（2019）提出了一种用于增量目标检测的蒸馏方法。该方法仅在三种设置下的VOC数据集上进行评估，没有与最先进的方法进行比较。实验结果并没有以特定的准确度清晰地呈现出来。
Li等人（2019年）提出了一种基于RetinaNet的单级增量目标检测器。在实验中，没有提到如何处理新数据上旧类的注释，他们只对VOC数据集执行一步增量检测。
我们的工作与以前的工作不同，我们的目标是为现实生活中的应用程序设计一个高性能的增量目标检测器，其中新任务图像可能也包含来自旧类的对象，但不存在旧类的注释。此外，我们在两个检测基准数据集PASCAL VOC和COCO上进行了一步和多步增量学习实验。

四、Evaluation of Robustness of RPN to In-cremental Object Detection

在增量训练期间，旧类目标缺少注释会对RPN性能产生不利影响，避免这一问题的方法：

Shmelkov等人（2017年）使用Fast-RCNN的固定外部建议框生成器获取与类别无关的建议框。
Hao等人（2019）仔细选择训练数据，避免旧类目标出现在新类数据中。
将ILOD中的KD方法应用于Faster-RCNN检测器，应用于 Faster RCNN的ILOD优于原始ILOD方法，主要是由于 Faster-RCNN的潜在优势。
与Shmelkov et al.（2017）和Hao et al.（2019）的假设不同，我们发现，在增量学习的情况下，在新数据中没有提供旧类注释的情况下，Faster RCNN的性能也不会受到很大影响。

五、Faster ILOD for Robust Incremental Object Detection

为了进一步缩小基于RPN的检测器的ILOD方法与完整数据训练之间存在精度差距，提出了一种新的多网络自适应蒸馏方法。

讨论用于我们的模型的主干网络
讨论我们提出的方法的每个部分

5.1 Object Detection Network

我们提出的增量目标检测方法包括两个模型：

教师模型（Nte）
学生模型（Nst）
教师模型是原始检测器的冻结副本，用于检测旧类别中的目标（Cte=Co）。
学生模型是需要训练的适应模型，用于检测新旧类别中的目标（Cst= Co∪ Cn）。
我们使用 Faster RCNN作为骨干网络，它由三部分组成：
（1）基于卷积神经网络（CNN）的特征抽取器，用于提供特征；
（2）区域建议网络（RPN），用于产生感兴趣的区域（ROI）；
（3）类级分类和边界框回归网络（RCN），用于根据RPN生成每个方案的最终预测。