Adaptive Knowledge Distillation for Lightweight Remote Sensing Object Detectors Optimizing

本文提出了一种自适应强化监督蒸馏(ARSD)框架,针对遥感图像的复杂性和目标大小变化,通过MCFI模块选择多尺度核心特征并加权小目标,以及SSRD模块优化回归结果,有效提高了轻量级目标检测器的性能。
摘要由CSDN通过智能技术生成

摘要

目前,轻型目标检测在遥感领域得到越来越多的应用。一般来说,轻量级检测器很难达到与传统深度模型相比具有竞争力的性能,而知识蒸馏是解决这一问题的一种很有前途的训练方法。由于遥感图像背景较为复杂,目标大小变化较大,直接应用现有的KD会产生大量的噪声,影响训练效果。为了解决上述问题,**我们提出了一种自适应强化监督蒸馏(ARSD)框架,以提高轻量型模型的检测能力。**首先,我们提出了一种多尺度核心特征模仿(MCFI)模块,用于特征知识的传递,该模块可以自适应地选择目标的多尺度核心特征进行蒸馏,并通过面积加权策略更加关注小目标的特征,此外,设计了严格监督回归蒸馏(SSRD)模块,选择最优的回归结果进行蒸馏,方便学生有效模仿教师网络更精确的回归输出。

介绍

与传统的中型探测器相比,现有的轻型探测器通常无法达到具有竞争力的性能。它们还面临着特征表示能力弱、虚警高、边界盒回归不精确等问题。一些知识蒸馏(KD)方法,如KD、FitNet和AT,被证明可以有效地提高轻量化模型的性能。通过这些方法,轻量级学生模型模仿了来自教师模型的暗知识,在不增加额外成本的情况下提高了其准确性。蒸馏的核心问题是应该传递哪些暗知识。现有的解决方案通常选择特征映射和回归结果作为暗知识进行蒸馏。

然而,上述的方案仍然存在以下问题:

特征模仿:现有的KD方法:最近提出了使用KD、Mimick学习高效的目标检测模型,以及使用细粒度特征模仿(FGFI)和使用任务自适应正则化(TAR)提取目标检测器进行目标检测。然而,上述方法只能传递单一的最高级特征信息,由于遥感图像中物体的大小差异较大,无法向学生模型传递足够的多尺度特征信息。此外,以前的方法对小目标和大目标的知识权重相同,而遥感图像中的小目标所占的比例非常大,在特征图中只有很少的特征。因此,无法有效检测到小物体(见图1)。

回归蒸馏:现有的方法只验证了蒸馏能够提升学生模型的能力,而没有注重优化轻量级模型。由于训练过程中的过拟合,轻量化模型的回归性能往往较差。此外,这些方法通常利用传统的KD进行回归结果,如果学生直接模仿教师模型的所有回归结果,我们将看到检测性能下降。首先,当教师的回归结果比学生差时,上述的蒸馏方法可能会给与错误的指导。另一当面,如果教师的回归结果比锚点的结果差,学生模型倾向于预测低质量的边界框。

为了解决单尺度特征模仿的问题,一些研究者提出了多尺度特征模仿方法。然而,他们很少有效地选择对象的核心特征。它们通常将整个图像的多尺度冗余特征从教师模型传递到学生模型。包含大量背景的多尺度冗余特征可能会削弱学生模型的特征表征能力。因此,处理这一问题的有效方法是选择关键特征而不是所有特征作为知识,这样可以减轻背景噪声的影响。受此启发,**我们提出了一种多尺度核心特征模仿(MCFI)模块,该模块可以自适应地选择目标的多尺度核心特征进行模拟。**此外,设计了一种面积加权策略,更加关注小目标的特征

对于所有蒸馏回归结果的问题,也有人提出学生模型只模仿教师模型的正样本回归结果。然而,并不是所有的阳性样本都有精确的回归结果,低质量的回归蒸馏会降低学生模型的性能。因此,选择合适的回归结果进行蒸馏可以有效地避免这一问题。基于上述思想,提出了严格监督回归蒸馏(SSRD)模块,从其中选择最优回归进行蒸馏。

MCFI模块和SSRD模块是我们提出的自适应强化监督蒸馏(ARSD)框架的关键组成部分,该框架有效地解决了遥感图像中轻型目标检测器的优化问题。如图2所示,MCFI模块和SSRD模块传递了教师模型中所选择的知识。

image-20240422190404880

主要的贡献如下

(1)提出了一种统一的蒸馏框架ARSD,可以解决遥感中轻量化目标检测器的优化问题。与其他最先进的(SOTA)蒸馏方法相比,用ARSD训练的轻量级模型获得了更好的性能。

(2)针对遥感图像的特征模拟问题,提出了MCFI模块,该模块可以自适应地选择目标的核心信息进行提取。

(3)为了解决回归蒸馏的问题,我们设计了一个SSRD模块,帮助学生模仿教师模型的准确回归输出。此外,提出了一种位置加权策略,以更加关注高质量的边界框

方法

问题设置

KD的任务表示为从教师模型到学生模型的知识传递。通常通过增加蒸馏损失来实现,K代表知识的种类。image-20240422191522901表示教师和学生的知识。image-20240422191600661代表它们之间的损失。KD可以定义为:

image-20240422191927627

image-20240422192005968为蒸馏质量,image-20240422192012597为归一化。image-20240422192036334表示知识传递的规则。以往的image-20240422192143675方法通常会传递一些噪声或遗漏一些关键知识,这使得学生模型无法模仿来自教师的核心信息。

框架

如图3所示,我们提出了一个包括MCFI模块和SSRD模块的ARSD框架。学生模型利用MCFI模块模仿教师模型的多尺度核心特征知识(特征金字塔网络)的特征图和分类,能够消除背景噪声,更加关注小目标的特征。

SSRD模块通过严格监督回归方法选择的高质量回归知识(回归结果)。SSRD模块有助于学生学习预测更精确的回归输出。通过MCFI模块和SSRD模块,将老师精心挑选的核心知识自适应地传递给学生模型。在训练阶段,只更新学生模型的参数,而冻结教师模型。

框架的其他模块如图3所示。学生和教师模型都采用经典的一级检测器,包括主干、FPN和检测头。我们以ResNet为主干,提取多尺度特征并采用FPN进行融合。然后,将特征发送到检测头,检测头分为两个分支。一个分支是分类头,另一个是回归头。还有一个平行于回归头的中间分支。

MCFI模块

这部分详细介绍MCFI模块,它便于学生模拟教师模型对象的多尺度核心知识。

(1)特征模仿:在图像分类任务中,学生模型通常模仿教师模型的整个特征图。在两个特征映射之间采用L2损失来优化学生模型。学生在直接模仿教师模型的特征图时,会学习到噪声而忽略真实的对象。因此,应该精心挑选特征,使学生只学习到教师特征图中的对象区域。考虑到这些,我们建议学生应该只模仿ground truth区域的特征图,因为它更有可能包含核心知识。基于上述思想,我们提出了一种自适应选择目标多尺度核心特征,更加关注小目标特征的MCFI模块。

自适应多尺度特征选择:以前的方法将单个最高级特征或多尺度冗余特征的信息传递给学生模型。单尺度特征知识不能有效传递不同尺度对象的信息。对包含大量背景的多尺度冗余特征信息的模仿会削弱学生模型的特征表征能力。为此,我们首先提出了一种自适应多尺度特征选择方法,从多尺度特征图中选择不同大小目标的核心信息。

给定输入图像image-20240422212537223,其中W和H分别表示图像的宽度和高度。设image-20240422212715447表示对象边界框的坐标。image-20240422212732229表示图像中物体的个数。我们首先计算输入图像的面积,然后计算第m个物体的面积

image-20240422213908240

为了估计属于尺度特征图的每个目标的信息,我们根据其面积计算目标尺度Km,如下所示:

image-20240423160752352

我们设image-20240423160951595image-20240423160944145,K表示特征映射尺度的个数。根据上面的公式,物体的面积越小,就会选择较低尺度的特征。低尺度特征包含更多的小目标信息,更有利于小目标的检测。

image-20240423161448589表示一组多尺度特征图,给定一定比例的特征图image-20240423161500938。其中,image-20240423161543988分别表示宽度、高度和通道编号。某比例尺度特征图的缩放比例计算如下:

image-20240423161556411

image-20240423161644755表示转换后的对象在相应比例特征图上的坐标,其计算公式为:

image-20240423161634772

通过变换后的第m个物体的坐标和目标尺度,我们生成一个maskimage-20240423161955408,它可以突出第m个物体的特征,过滤掉背景。

image-20240423162018928

式中image-20240423162610335,在mask中,目标所在区域的值为1,背景所在区域的值为0。我们获得核心特征图image-20240423162928854

image-20240423162935876

image-20240423163425092是我们的自适应多尺度特征选择函数。

3)面积加权策略:在上面的部分中,我们获得所有对象的特征,并对所有大小的对象给予相同的模仿权重。然而,航拍图像中的小目标由于在特征图中所占比例较小,很难被检测到。因此,我们提出一种面积加权策略来解决上述问题。

首先,根据image-20240423163913582计算第m个物体的归一化面积如下:

image-20240423164007999

其次,我们设计了一个与物体面积相关的单调递减函数。如图5所示,采用指数函数作为主函数。随着物体体积的减小,它的重量也会增大。

image-20240423164106272

然后,我们得到如下的面积加权mask。

image-20240423164132962

为了获得图像中所有物体的核心特征,我们对它们进行循环,得到一组掩码image-20240423164342550。我们将相同的比例掩码与OR操作相结合。最后,得到多尺度掩码image-20240423164426688image-20240423164419125

通过应用多尺度掩码M,学生自适应地模仿教师模型的多尺度核心信息。

MCFI的损失如下:

image-20240423164538063

其中分别为特征图的宽度、高度和通道。K表示特征映射尺度的个数。image-20240423164727039分别表示学生模型和教师模型的特征映射。image-20240423164733755表示掩模image-20240423164741066中正点的数量。

MCFI模型如图6所示。

image-20240423165038884

SSRD模型

在本节中,我们详细描述了提出的SSRD模块,学生模块将从具有SSRD的教师模型中学习更精确的回归输出。

严格监督回归选择:在检测模型中,回归头负责预测每个锚点相对于对应Ground truth锚点的坐标偏移。因此,回归头揭示了图像中物体的潜在位置。由于教师模型提取的特征更丰富,回归结果更准确,我们渲染学生模型来模仿教师模型的回归头输出。虽然回归头预测了所有样本的偏移量,但为了避免噪声的影响,只使用正样本进行监督。

对于单阶段模型,当学生模型和教师模型输入相同的图像时,正样本是相同的。定义image-20240423190538973分别为教师模型的解码进行正样本回归输出、学生模型的解码正样本回归输出、正锚点和基础真值。它们的定义如下:

image-20240423190545783

这里N表示正样本数,M为真值数。

当教师直接使用image-20240423191248477来指导image-20240423191258528时,可能会在某些输出上给学生错误的指导。因此,我们提出了一种严格的监督回归方法来选择高质量蒸馏的阳性样本。有必要定义一个评价标准来衡量回归结果的质量,我们将其定义为p。image-20240423195612992的p计算如下。IoU操作是计算两组边界框的重叠率。最大操作意味着在预测框和所有ground truth之间获得最大的IoU值。

image-20240423195806717

此外,提出映射函数image-20240423195840427,得到正样本指标如下:

image-20240423195845042

采用不同选择方法的image-20240423200029358,我们将得到不同的R。当R=1时,将选择阳性样本进行蒸馏。我们分析不同的选择方法如下。

弱监督选择:第一种选择方法类似于[7]中提出的策略。只有当教师的预测边界框P大于教师的预测框P时,才选择正样本:

image-20240423200223259

但是,选择这样的样本进行蒸馏,如果学生模型的预测边界框由于教师模型,则会使教师误导学生。

中间监督选择:对于第二种选择方法,我们限制教师的预测边界框P大于学生的预测边界框P:

image-20240423200403510

但也有可能学生和教师的P值不高于anchor的P值。这种选择方法使学生模型学会预测低质量的边界框。

严监管选择:最后是严监管选择方法

image-20240423200543810

只有满足上述条件,学生才能模型教师预测边界框的输出,从而消除了前两种选择方法的缺点,使学生能够从教师模型中学习到更精确的输出。

位置加权策略:在前一部分中,我们提出了一种严格监督回归选择方法来选择合适的正样本进行蒸馏。然而,所选样本的蒸馏权重均相等,无法有效区分不同Box的位置质量。在上述问题的驱动下,我们提出了一种位置加权策略,赋予位置质量越高的回归盒最大的蒸馏权重。

image-20240423201817399为回归前正样本的边界框,image-20240423201908493是对应的ground truth。然后,我们计算从anchor的中心到ground truth的四边距离。

image-20240423202017944

image-20240423202108781的位置质量image-20240423202113519计算公式如下:

image-20240423202053769

随着锚点重新越来越靠近ground truth的中心。image-20240423202230558的值逐渐趋近于1,box的定位质量越高,如图7所示。因此,我们采用作为正样本回归蒸馏的权值,我们提出的位置加权选择方法定义如下:

image-20240423202313819

用严格监督选择方法对所有阳性进行循环,得到集合image-20240423202724411

通过应用image-20240423202754798,只提取出阳性样本的高质量回归。SSD损失定义如下:

image-20240423202816611

其中image-20240423203031779表示GIOU损失。image-20240423203103777表示学生的预测框和相应的教师预测框的交集。image-20240423203216419表示学生预测框和相应的教师预测框的并集。表示学生预测框和相应教师预测框的最小封闭框。

图8详细阐述了SSRD模块。

image-20240423203310471

最优化

总损失

image-20240423203358354

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值