读论文：轻量级遥感目标检测器优化的自适应知识蒸馏

a44267113

已于 2023-06-01 12:41:43 修改

阅读量637

点赞数 1

文章标签：计算机视觉深度学习人工智能

于 2023-05-22 14:18:20 首次发布

本文链接：https://blog.csdn.net/a44267113/article/details/130685206

版权

本文提出了一种名为ARSD的自适应强化监督蒸馏框架，用于优化遥感图像中的轻量级目标检测器。该框架包含MCFI模块，自适应地选择多尺度核心特征进行蒸馏，关注小目标；以及SSRD模块，选择最优回归结果进行蒸馏，提高学生模型的回归性能。实验结果显示，ARSD框架在多个数据集上超越了现有的蒸馏方法和轻量级检测器，证明了其在小目标检测方面的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题: Adaptive Knowledge Distillation for Lightweight Remote Sensing Object Detectors Optimizing
作者: Yiran Yang , Student Member, IEEE, Xian Sun , Senior Member, IEEE, Wenhui Dia
原文地址：https://ieeexplore.ieee.org/document/9775159

Abstract

本文提出了一个用于传递特征知识的多尺度核心特征模仿MFCI模块，并设计了严格监督回归蒸馏SSRD模块来让学生模型有效模仿教师模型更精确的回归输出。与传统深度模型相比，轻量级检测器的性能要弱小许多。而知识蒸馏KD（一种训练方法）就可以有效地解决该问题。但是由于遥感图像的背景较为复杂，物体大小变化大，所以不能够直接运用KD方法。为此，本文提出了自适应强化监督蒸馏ARSD框架来提升轻量级模型检测能力。然后在几个数据集上运行该模型并发现其性能不仅要优于现有的蒸馏状态最先进的方法 (SOTA) 。并且该模型的效果也超越了一些经典的重/轻量级检测器。

MCFI模块：它可以自适应地选择对象的多尺度核心特征进行蒸馏，并通过区域加权策略更加关注小对象的特征；
SSRD模块：选择最优回归结果进行蒸馏；

Index Term——Adaptive knowledge distillation (KD), lightweight model, object detection, remote sensing imagery.

Introduction

现在许多在遥感领域的物体检测方法都是用基于R卷积神经网络（CNN)的方法。但是遥感图像的增加会给模型带来巨大压力，再加上现有探测器通常结构复杂、计算成本高、存储量大，都是巨大挑战。而轻量级物体检测器能够解决这些问题。

但是轻量级的探测器通常不会有很高的性能：它们面临着特征表示能力弱、虚警高、边界盒回归不精确等问题——知识蒸馏KD方法：轻量级学生模型模仿了来自教师模型的暗知识，在不增加额外成本的情况下提高了其准确性；

核心问题：应该传递哪些暗知识？——选择特征映射和回归结果作为暗知识进行蒸馏

暗知识(Tacit Knowledge)是一种难以形式化、难以传播的知识形式。它由个人在长期实践和体验中积累的、难以表达的感性认知构成。暗知识与形式知识相对,后者可以通过语言或其他形式准确表达

但是上述方案存在以下问题：

特征模仿：现有的KD方法就是学习高效目标检测模型、提取目标检测器以及提取目标检测器来进行检测。但是这些方法都只能传递单一的最高级特征信息，而且以前的方法对于大小目标的知识权重相同，但是遥感图像中小目标所占比例很大，使得特征图中只有很少特征，如下图所示：

就无法探测到许多小物体；
在特征蒸馏中，蓝色和绿色区域分别表示教师模型和学生模型的单尺度特征图，虚线框表示具有相同权重的特征交付区域；
在回归蒸馏中，B_s、B_t和B_gt分别表示学生模型和教师模型的回归结果和基础真值。然后B_s直接模仿B_t和B_gt。在单尺度特征等权蒸馏和误导性教师回归蒸馏下，可能会得到较差的结果；

回归蒸馏法：现有的方法都没有关注对轻量级模型的优化，而且它们的回归性能往往较差。一方面，当教师的回归结果比学生的回归结果差时，可能会给出错误的指导。另一个方面，如果老师的回归结果比锚点的差，学生模型往往会预测出低质量的边界框；

为了解决但尺度特征模仿问题，就有人提出了多尺度特征模仿，但是通常都是将整个图像的多尺度冗余特征传递给学生，而这会削弱其特征表征能力——多尺度核心特征模拟MCFI模块，该模块可以自适应地选择目标的多尺度核心特征进行模拟，并设计了一种面积加权策略，更加关注小目标的特征。

而对于蒸馏回归问题，则是只模仿正样本回归结果，但是并非所有正样本都是精确的——严格监督回归蒸馏SSRD模块，选择最优回归进行蒸馏。还通过位置加权策略，让学生学会预测教师模型的高质量回归输出；

上面的两个模块就是本文的自适应强化强度蒸馏ARSD框架的关键部分，如下图所示：

MCFI模块和SSRD模块传递了教师模型中所选择的知识。该框架有效地解决了小目标的探测问题

贡献

提出了一个称为ARSD的统一蒸馏框架，它可以解决轻量级目标检测器在遥感中的优化问题；
针对遥感图像的特征模仿问题（就是模仿的特征可能与自然特征存在较大差异），本文提出了MCFI模块，它能够自适应地选择对象地核心信息来进行蒸馏；
为了决解回归蒸馏的问题（解决回归任务中地样本分布偏差问题），本文设计了一个SSRD模块，用以帮助学生模仿教师模型的准确回归输出；

综述

一、相关工作

1.1 目标检测

当今基于CNN的检测器，无论是两/单阶段都需要巨大的计算量来实现目标，它们通常都会有一个巨大的骨架。因此，有人专注于轻量级骨架的设计。

与自然图像相比，遥感图像具有背景复杂，多尺度物体的特点，而这些特点会使得轻量级检测器效果下降——基于深度学习的遥感图像的物理检测算法，如：用于融合多尺度背景信息并用加权损失来关注小物体的ASFP组件、CBD模块将主力已和可变形卷积结构结合等等。

1.2 知识蒸馏

该学习方法的基本思想是：使用一个较为复杂的模型（老师模型）来辅助训练一个更小的模型（学生模型）。学生模型可以学习老师模型的只是，并在此基础上进行微妙来适应新任务。

知识蒸馏的过程可以概括为:

先训练一个老师模型,该模型通常更大更复杂,但性能更好;
然后使用老师模型的输出(如概率或损失)作为软标签(软目标),来辅助训练学生模型;
学生模型用这些软标签进行监督,可以学习到老师模型已经获得的知识;
同时学生模型结合新任务中少量的硬标签数据(真实标注),进一步微调模型,最终学生模型可以达到比较好的性能。

对于用于分类任务的KD来说，教师模型用来传递暗信息，也就是教师模型输出层的软标签，给学生模型。就比如：FitNet通过教师中间层的信息来提炼学生模型以及学生模仿教师注意力图等

分类任务中关于KD的工作很难直接迁移到更复杂的检测任务中去。比如：学生模型只模仿教师模型特征图中靠近物体的区域的FGFI、只模仿正样本的输出结果的TAR以及赋予不同权重的DeFeat方法。

二、方法

2.1 问题设置

KD就是从教师模型到学生模型的知识传递，这通常通过增加蒸馏损失来实现。KD可以表示为：
$L_{distillation}=\sum_{k=1}^{K}\frac{λ_k}{N_k}L_k(T^k, S^k,R^k)$

其中，K代表知识种类，Tk和Sk分别代表教师和学生的知识，Lk代表损失，λk为蒸馏质量，Nk为归一项，Rk代表知识传递的规则，而以往的方法通常会传递一些噪声/遗漏关键知识

2.2 框架

本文所提出的框架如下图所示：

学生模型利用MCFI模块来模仿教师模型的多尺度核心特征知识，这样能够消除背景噪声，更加关注小目标的特征；SSRD模块传递高质量回归知识，这有助于学生学习预测更精确的回归输出；
通过这两个模块，可以将老师模型中核心知识自适应地传递给学生模型
而在训练阶段，只更新学生模型的参数

此处使用ResNet来作为主干网络，用以提取多尺度特征，并通过FPN进行融合。然后特征被送到怕检测头中，其中又分为分类/检测头两种头。中心性分支同时与回归头平时存在。此外，为了实现轻量化，在实验时讲学生FPN层通道数降为四分之一（VHR-10)/二分之一(DOTA,DIO)。

下图则是展示了适应层，用于匹配特征图通道数：
在这里插入图片描述

也就是通过一个一维卷积来使得学生的特征图与老师的特征图相等

2.3 MCFI模块

这个模块有利于学生模仿教师地对象地多尺度核心知识

特征图模仿：对象检测任务的特征图中的大多数区域都是背景。如果学生直接学习老师模型容易学到许多噪声——MCFI模块可以自适应的选择对象的多尺度核心特征,并更加关注小对象的特征；

具体方法：要针对检测任务与数据的特点，选择与对象相关的特征区域进行迁移，从而避免学生学习过多的噪声；

自适应的多尺度特征选择：该方法可以从多尺度特征途中选择不同尺寸物体的核心信息来防止荣誉特征信息削弱学生模型的特征表示能力；

对于给定输入图像 $I\in R^{W \times H}$ (其中W和H分别代表图像的宽和高)。让 $b^m=(x^m_1,y^m_1,x^m_2,y^m_2 )$ 表示一个物体边界框的坐标。其中，m∈[1, M]，M表示图像中物体数量。然后先计算输入图像的面积I_Φ并计算第m个物体的面积b^m_Φ：
$I_Φ=W * H$

$b^m_Φ=(x^m_2-x^m_1)*(y^m_2-y^m_1)$

为了估计属于尺度特征图的每个对象的信息，本文根据其面积计算出目标尺度公里数：
$k^m=max(\lfloor \log_2\sqrt{b^m_Φ\over I_Φ}\rfloor,1)$

此处设定k₀为K，k^m∈[1,K],K代表特征图的尺度数。
根据上面的公式，物体面积越小，将选择较低尺度的特征。低尺度的特征通常具有更多的小物体信息，更有利于对其进行检测

让F={F₁, F₂, …,F_K}代表一组多尺度的特征图。那么对于某个尺度特征图 $F_k \in R^{W_k\times H_k \times C}$ ，其中W_k、H_k和C分别代表宽，高和通道数。如此一来，某一制度特征图的缩放比计算就是：
$S^w_k=\frac{W_k}{W}, S^h_k=\frac{H_k}{H}$

让 $b^m=(x^m_{1_t},y^m_{1_t},x^m_{2_t},y^m_{2_t} )$ 表示物体在相应比例尺特征图上经过缩放转换的坐标，计算方法如下：
$x^m_{1_t}=S^w_kx^m_1, y^m_{1_t}=S^w_hy^m_1$

$x^m_{2_t}=S^w_kx^m_2, y^m_{2_t}=S^w_hy^m_2$

通过第m个物体的转换坐标和目标比例，我们生成一个 $M^m \in R^{W_k\times H_k}$ 的掩码，它可以突出第m个物体的特征并过滤掉背景：

$M^m=1[(i,j)\in b^m_t]$

其中i∈[1, W_k], j∈[1,H_k]。

在掩码M^m中，物体所在区域值为1，背景所在区域值为0，这样就可以得到核心特征 $f^m \in R^{W_k\times H_k\times C}$ ：
$f_m=\gamma (B^m_t,k^m,F)$

$=1[(i,j)\in b^m_t]*F_k$

$M^m*F_k$

其中，γ()是本文的自适应多尺度特征的选择函数

面积加权的策略：在上述部分中已经获得了所有物体的特征，并对所有大小的物体给予相同的模仿权重。但是还需要一个区域加权的策略来解决小物体比例小的问题：

首先，根据 $b^m_Φ$ 和 $I_Φ$ 来计算第m个物体的归一化面积：
$S_m=\sqrt{b^m_Φ\over I_Φ}$
其次，本文设计了一个与物体面积相关大的单挑递减函数：
$w_m=e^{-S_m}+1$

其展示效果下图所示：

采用指数函数作为主函数。随着物体体积减小，其重量不断增大

然后，就可以得到面积加权掩码：
$M^{m*}=M^m*w_m$

通过循环来获得图像中所有物体的核心特征，从而得到一组掩码 $M={M^{1*}, M^{2*},...,M^{M*}}$ 。本文将相同的比例与OR操作相结合，最后获得了多尺度掩码 $M={M_1,M_2,...,M_K}$

这样一来，学生就可以自适应地模仿教师模型地多尺度核心信息。MFCI损失定义如下：
$L_{MCFI}=\sum^{K}_{k=1}[\frac {1}{2N^k_p}\sum^{W_k}_{i=1}\sum^{H_k}_{j=1}\sum^{C}_{c=1}M_k(F^t_{ijkc}-F^S_{ijkc})^2]$

$N^k_p=\sum^{W_k}_{i=1}\sum^{H_k}_{j=1}M_k$

其中，K代表特征映射尺度的个数。 $F^t_{ijkc}和F^S_{ijkc}$ 分别表示教师/学生模型的特征映射。 $N^k_p$ 表示掩码M_k中正点的数量

MCFI模块如下图所示：

2.4 SSRD模块

这个模块就是本文所提出的模块，学生模型将从具有SSRD的教师模型中学习更精确的回归输出。

严格监督回归选择：在检测模型中，回归头负责预测每个锚点相对于其对应的地面真值的坐标偏移——回归头揭示了图像中物体的潜在位置（物体可能出现但未被检测出来的位置。这些位置包含了我们的检测模型尚未发现的物体实例。），但是为了避免噪声影响，只使用正样本进行监督。

对于单阶段模型(一次完成检测任务的全部步骤)，当学生和教师模型输入相同图像时，正样本相同。 $B_{t/s/a/g}$ 被定义为教师/学生模型的解码正样本回归输出、正样本锚框（就是默认框）以及GT。定义如下：
$B_σ = \{b^1_σ,b^2_σ,...,b^N_σ\}, σ=t,s,a$

$B_g=\{b^1,b^2,...,b^M\}$

N代表正样本数量，M是GT的数量

为了防止教师模型误导学生（简单来说就是老师的东西不一定能直接套给学生，以及老师的错误会传给学生）——定义一个评价准则P来衡量回归结果质量，对应计算公式如下：
$P_σ^n=max(IoU(b_σ^n,B_G)),σ=t,s,a$

IoU代表计算两个边界框集的重叠率，max代表获取预测框与所有真值之间的最大IoU值；
锚点就是图片中的每个像素点，锚框就是以锚点为中心，由算法预定义的多个不同长宽比的先验框（就是候选框）；

此外，还通过一个映射函数 $\Psi(·)$ 来得到正样本索引R：
$\Psi(p) : \begin{cases} 1,p>0\\0,p\leq0 \end{cases}$

采用不同的啊ψ()就会得到不同的R，当R=1时，就进行蒸馏（就是要这个样本）。下面分析不同的选择方法：

1. 弱监督选择：只有当教师模型的预测边界框P大于锚的P时才选择正样本：
  $R^n_o=\Psi(P^n_t-P^n_a)$
  然而，如果学生模型的预测边界框要优于教师模型，选择这样的样本就会误导学生；
1. 中监督选择：限制教师的预测边界框P大于学生的：
  $R^n_m=\Psi(P^n_l-P^n_s)$

采用这种基于P的选择方法，监督的预测框有可能会选择学生模型或老师模型预测的框的P值并不高于anchor框的P值。这会导致学生模型学习到较低质量的预测框

1. 强监督选择：只有满足下面的条件才能模仿教师预测边界框的输出：
  $R^n_s=\Psi(P^n_t-P^n_s)*\Psi(P^n_s-P^n_a)$

从而消除前两种选择方式的缺点，使学生能够从教师模型中学到更精确的输出

位置加权策略：前面方法所选样品的蒸馏权值均相等，无法有效区分不同箱体的位置质量——赋予位置质量越高的回归框更大的蒸馏权值

从IoU值、类别准确性、位置偏差、尺度匹配度、长宽比以及置信度等方面来进行判断

让 $b^n_a=\{x^n_1,y^n_1,x^n_2,y^n_2\}$ 为回归前正样本的边界框， $b^m=\{x^m_1,y^m_1,x^m_2,y^m_2\}$ 表示对应的GT。然后就可以计算从锚的中心到GT的四面的距离：
$l^n=|\frac{x^n_1+x^n_2}{2}-x^m_1| ,t^n=|\frac{y^n_1+y^n_2}{2}-y^m_1|$

$r^n=|x^m_2-\frac{x^n_1+x^n_2}{2}| ,b^n=|y^m_2-\frac{y^n_1+y^n_2}{2}|$

$b^n_a$ 的位置质量 $Q^n$ 计算公式如下：

$Q^n=\sqrt{{min(l^n,r^n)\over{max(l^n,r^n)}}*{min(l^n,r^n)\over{max(l^n,r^n)}}}$

$Q^n \in [0,1]$

随着锚点中心越来越靠近GT中心，Qⁿ的值趋近于1，即方框定位质量高

坐标原点表示GT中心，(x, y)是锚点的中心。锚箱重量随中心点距离的增加而减小。该重量用于提高高质量锚的蒸馏

本文采用Qⁿ作为正样本回归蒸馏的权值，方法定义如下：
$R^n_{sq}=R^n_s*Q^n$

用严格监督选择方法来对所有正样本进行循环，得到集合 $R=\{R^1_{sq},R^2_{sq},....,R^N_{sq}\}$

再利用指标R，只提取出正样本的高质量回归，那么其损失函数定义如下：
$L_{SSRD}=\frac{1}{N_{reg}}\sum^{N}_{n=1}R^n*L_{giou}(b^n_t,b^n_s)$

$L_{giou}(b^n_t,b^n_s)=1-\frac{I(b_t,b_s)}{U(b_t,b_s)}+\frac{E(b_t,b_s)-U(b_t,b_s)}{E(b_t,b_s)}$

$N_{reg}=\begin{cases} \sum^{N}_{n=1} R^n{,\sum^{N}_{n=1} R^n>0} \\ 1{,otherwise}\end{cases}$

其中，L_giou代表了广义的交集大于联合（GOIU）的损失。I/U/E(b_t,b_s)代表学生预测框和相应的教师预测框的交集/联合/最小包围框；

交集:预测框交集表示多个预测框重合的部分。它代表了多个预测框同时预测到的目标区域,可以看作是预测框之间的共识。交集框的面积往往较小,但定位肯定较准确,可以用来提高预测精度。
联合:预测框联合表示将多个预测框合并为一个框。联合框包含了多个预测框所覆盖的整个区域,面积较大,但定位准确度可能较差。联合框可以用于检测 to 不清晰或部分遮挡的目标。
最小包围框:预测框最小包围框表示刚好可以覆盖住所有预测框的最小框。它比联合框的面积要小,覆盖范围更加精确,定位质量与联合框有一定差异。最小包围框在一定程度上兼顾了交集框和联合框的特点。
这三种框合并方式各有优点,主要应用场景也有差异:

交集框:主要用于提高定位精度,过滤误差框,得到更准确预测。适用于较清晰目标检测场景。
联合框:主要用于检测目标不是很清晰或部分遮挡的情况。可以包括更广范围,减少漏检,但定位精度相对较差。
最小包围框:在一定程度上兼顾了定位精度和漏检率,覆盖范围比联合框精细但比交集框宽泛。适用于目标状态一般,既要考虑定位精度又需要避免一定漏检的场景。

详细的模块展示如下图所示：

假设图像中有两个对象，不同颜色的框代表不同的预测等。这里先计算出教师、学生和锚的回归精确度 $P_σ^n，σ=\{t,s,a\}$ 。然后采用严格监督回归选择来选取最优蒸馏样品，如图中1所示。最后，选取的所有样本在教师模型和学生模型的回归结果间计算SSRD损失。并采用如图7所示的位置加权策略来提高回归框权重质量。

优化
利用检测损失L_det和蒸馏损失I来对学生模型进行优化：

检测损失定义如下：
$L_{det}=λ_1L_{cls}+λ_2L_{reg}+λ_3L_{cen}$

其中， $L_{cls}采用焦点损失，L_{reg}采用GIOU损失，L_{cen}是二元交叉熵（BCE）损失，此处设定λ_1=λ_3=1,λ_2=2$

蒸馏损失定义如下：
$L_{distill}=λ_4L_{MCFI}+λ_5L_{SSRD}$

如此一来，总的损失就是：
$L=L_{det}+L_{distill}$

下面的伪代码描述了ARSD框架的整个训练过程：

有伪代码了，具体代码。。再说吧

三、实验结果

3.1 数据集

DOTA：该数据集包含2806个大图像和188282个实例，并分为15个类别。每张原始图像大小为40004000，而在实验中减为10241024，重叠200像素；
NWPU VHR-10：该数据集包含520张图像来作为训练集，130张图像作为测试集。数据集包含10个类别，大小固定为1000*600
DIOR：该数据集包含23463张图像和192472个实例。每张图像大小为800*800；

3.2 实现细节

模型设置：

教师模型：在数据集DOTA和DIOR上使用ResNet101作为教师的骨干。由于NWPU数据集较小，因此使用ResNet50作为教师模型的主干；

50和101就是说明两个模型的层数不同，从而导致参数量不同，对于小的数据集，使用ResNet50即可；

学生模型：为了轻量化，学生模型使用ResNet18为主干。此外，对于DOTA和DIOR数据集，FPN通道数量减少一半，而对于NWPU，则是减少到四分之一；

训练策略：（不用写PPT）具体设置如下表所示：

使用随机梯度下降优化损失，预热学习率设置为0.001，轮数设置为500。动、重量衰减分别设置为0.9和0.0001。采用ImageNet预训练模型进行骨干初始化。在测试阶段，DOTA和DIOR的非最大抑制IoU阈值为0.4，NWPU的阈值为0.6；

评价指标：采用平均平均精度mAP来评价模型的准确性。

AP与TP,FP,FN,精度以及召回率的关系：
TP:当检测结果所预测的边界框和GT框超过一定阈值时，将结果视为TP，否则就是FP。
FN：当基础真值没有匹配的预测结果时，将标记假FN；
而精确度和召回率的定义如下：
$presision=\frac{TP}{TP+FP}$

$\frac{TP}{TP+FN}$

根据置信度对预测结果进行排序，就可以得到不同的精确度和召回率，也就可以绘制PR曲线，AP就是PR曲线下边的面积，然后计算所有类别AP的平均值以获得mAP。

另外，本文还采用了FPS、浮点运算数FLOPs和网络参数数量Params来作为评估模型和轻量级性能的指标。

3.3 消融实验

通过消融实验研究了每个蒸馏模块（MCFI和SSRD）如何促进模型性能，该实验在DOTA数据集上进行。

ARSD框架：MCFI模块可应用于FPN层/分类头，而且它可以提高轻量化模型的精度（不论单独/组合使用）。而SSRD模块只能应用于回归头，它也促进了性能。上述模块的表现结果如下表所示：
MCFI模块的效果：经过FPN层后，就会获得5个比例特征图，然后学生根据不同的方法来模仿老师的不同特征，如下表所示：

FGFI是指细粒度模仿，*表示特征选择的阈值对于所有尺度特征都是固定的，而°表示阈值不同。这两种细粒度模拟更关注背景信息。
MCFI使学生能够了解GT的特征，从而消除噪声。I表示没有面积加权策略的MCFI模块。最后是增加面积加权策略，使学生模型更容易关注小物体。
从上表结果中可以看出，MCFI模块完成了最优结果，准确率较基本模型提升了3.15%

本文还对FPN特征进行了面积加权策略蒸馏实验：即使用一个单调递减的函数作为加权函数。随着目标面积的增加，其对应特征区域的权重逐渐减小，如下表所示：