每日一读1:基于注意力特征蒸馏的光学遥感图像目标检测轻量化算法

Efficient Object Detection in Optical Remote Sensing Imagery via Attention-based Feature Distillation

0 摘要

        近年来,面向光学遥感图像的目标检测算法备受研究者关注。尽管基于深度卷积网络的目标检测算法通常具有出色的检测精度,但其很难部署在资源有限的边缘设备上(实际应用场景下的遥感图像识别设备往往是边缘终端?)。知识蒸馏(KD)是解决这个问题的一种常见策略,因为它在不牺牲模型准确率的前提下使得模型更轻量化。原始的KD算法诞生于分类任务中,然而,在面向目标检测任务时,知识蒸馏方法主要面临两大难题:首先,现有的算法普遍丢弃潜在的重要背景信息而只提取前景区域。其次,它们只依赖于全局上下文,这限制了学生检测器从教师检测器获取局部信息的能力。(they only rely on the global context, which limits the student detector’s ability to acquire local information from the teacher detector.为了解决上述挑战,我们提出了一种新的KD方法——基于注意力的特征提取(AFD),AFD从教师检测器中提取局部和全局信息。为了增强局部蒸馏,我们引入了一个多实例注意机制,有效地区分背景和前景元素。这种方法促使学生检测器关注由教师检测器识别的相关通道和像素。针对局部蒸馏缺乏全局信息的问题,提出了注意力全局蒸馏方法来重构各个像素之间的关系,并将其从教师检测器传递到学生检测器。我们在两个公开的航空图像数据集上对AFD的性能进行了评估,评估结果表明,AFD在目标检测算法中可以达到SOTA(state-of-the-art)性能,同时模型很轻量。

1 Intro

        近年来,由于深度卷积神经网络(CNN)的进步,遥感图像中的目标检测已经取得了重大进展。然而,大多数前沿的CNN需要大量的处理能力,这使得它们无法用于手机和嵌入式系统等实际场景。为解决这个问题,越来越多的模型压缩算法开始涌现,如蒸馏(KD)、权重修剪和模型量化。KD因其在不增加轻量化算法复杂度的前提下提升模型的准确率而独树一帜。在KD中,一个大体积的教师网络的预测分布被用来训练一个更小,更易于部署的学生网络。因此,教师网络的软标签可以帮助学生网络像教师网络一样做出决策,帮助 后者提升本身的性能,并不增加模型参数量。

        由于遥感图像中存在多个分布在不同位置的目标,因此检测并识别出图像中目标的位置并分类是极具挑战的。这导致了检测细节的不准确和不平衡。不同位置的表示,例如背景、前景、中心或边界,可能赋予检测结果不同的意义,这使得KD在此类任务中的应用颇具挑战性。传统的KD方法是为分类任务设计的(见图1(a)),由于该方法缺乏定位信息的传递,因此不适用于检测任务。例如,提示学习(Hint learning)蒸馏隐藏层的特征图,但它不会将教师检测器的定位和分类知识传递给学生检测器。为了解决这个问题,[Learning efficient object detection models with knowledge distillation 2017]引入了一种新的目标检测方法,改进了特征提取,信息定位和分类,尽管如此,由于背景和前景之间的差异(disparity),其无法有效地提取教师的知识。在[Distilling object detectors with fine-grained feature imitation 2019]中,开发了一种特征提取方法,该方法使用样本真实值(GT)来过滤背景区域,以便仅从有效的前景区域进行提取。然而,该解决方案没有解决向不同重要性的目标区域分配相等权重的问题。因此,在[Improve object detection with feature-based knowledge distillation: Towards accurate and efficient detectors 2020]中,作者建议将注意力机制应用于全局特征,以构建软加权掩码(soft weighted mask),这些掩码有助于模型访问某些高度重要的位置信息。然而,我们已经注意到,当只依赖于全局特征上下文时,会出现两个主要问题,其可能导致教师特征中的重要信息丢失。首先,存在过度关注前景区域而忽略背景这一趋势。忽略背景不利于遥感图像中准确的目标检测[16],[17],因为它包含了不应忽视的有价值的信息。因此,有效地平衡和使用来自前景和背景的所有信息是提高目标检测中的蒸馏性能的关键。第二,考虑到基于全局掩码的方法只关注特征的全局上下文,一些均匀分布在所有区域的重要局部特征可能会被忽略。(some significant local features that are uniformly distributed in all regions might be overlooked given that the global mask-based approaches just pay attention to the features’ global contexts.《Improve object detection with feature-based knowledge distillation: Towards accurate and efficient detectors 2020》将softmax函数应用于全局区域,将产生增强的mask,该mask在忽略其他对象和背景区域的同时对前景对象提供相当大的注意力。

        为了检测和分类遥感图像中的目标,我们提出了基于注意力的特征提取(AFD)来解决上述约束,如图1(b)所示。在AFD中,我们提出了一种新的多实例(multi-instance)注意力策略,该策略基于检测器的局部和全局上下文特征。AFD将注意力机制应用于局部和全局特征以生成注意力掩码。在这个过程中,模型估计教师特征图的各个通道和像素的注意力,使学生检测器能够更多地关注教师检测中最重要的通道和像素。它还从教师网络中提取各种像素之间的关系,并将其反馈到学生网络。为了进一步提取教师的信息,将创建的掩码应用于提取的特征、区域建议网络(RPN)特征、分类输出和回归输出。

        此外,我们采用了一种特征图归一化(feature map normalization)技术,并最大限度地减少归一化特征之间的MSE损失。这种方法旨在减轻教师和学生检测器之间的差异大小以及不同特征金字塔网络(FPN)层和通道之间的差异所带来的不利影响。在我们的AFD模型中,所有损失函数都只对特征进行操作,允许与不同的一阶段/二阶段检测器融合(allowing for direct integration with different one/two-stage detectors.)。为了评估AFD的性能,我们在两个具有挑战性的基准航空数据集(DOTA [18],NWPU VHR-10 [19])上进行了一系列全面的实验。结果表明,AFD在目前应用在目标检测的KD算法中达到最优。以下是本文的主要贡献:

        1.我们引入了一个基于注意力的模型,用于从教师检测器中提取局部和全局信息。因此,学生模型更关注前景而削弱了对背景像素的关注。

        2.我们引入局部和全局蒸馏,以提高学生检测器对重要的教师通道和像素的注意力,同时也促进像素关系的理解。

        3.在两个具有挑战性的基准数据集上进行了全面的实验,以彻底评估我们的方法。结果表明,与其他探测器相比,它有了令人印象深刻的改进。为了说明每个模块对我们提出的模型性能的影响,我们还进行了全面的消融研究。

 本文其余部分的结构如下。第二部分简要回顾了基于CNN和KD的自然和遥感图像目标检测方法。第三节描述了AFD模型。数据集的详细信息,实验和评估结果在第IV节中给出。第五节为本文的结论。

2 相关工作

        鉴于目标检测模领域模型型的多样而广泛,我们只提及与本研究最密切相关的工作,包括基于CNN的目标检测和KD算法。

A.目标检测

        当前基于CNN的目标检测模型,无论是一阶段[20]-[22]还是两阶段[23]-[25],都需要相当多的计算资源来实现所需的性能,这使得它们在计算能力有限的嵌入式设备上投入使用是不切实际的。这些检测器通常具有强大的骨干网络,例如VGG [26]和ResNets [27]。因此,一些研究集中在创建轻量级骨干网络。MobileNet [28]是一个轻量级的深度神经网络,使用深度可分离卷积和补充搜索策略。Single Shot multibox Detector(SSD)[20],MobileNetV2-SSD [29]和MobileNetV3 [30]是通过将MobileNet与一阶段检测器相结合的轻量级检测器的三个示例。

        现有的目标检测方法通常依赖于调整图像分类框架来处理检测任务。但是,由于分类和检测任务彼此如此不同,因此轻量级骨干并不适合直接部署。因此,一些轻量级检测器,如Tiny深度监督对象检测[31]和Pelee [32]已经开发了特定的主干网络。为了实现有效的实时检测,ThunderNet [33]建议将压缩的主干网络与RPN集成。

        由于其复杂的背景和多尺度对象,这些轻量级的检测器往往不能在在检测遥感图像时获得良好的检测结果。鉴于这一需求,几种面向遥感图像识别的基于深度学习的检测器已被提出。

 (省略部分)

B.用于目标检测的KD

        为了开发用于自然场景的精确和轻量级探测器,近年来研究人员广泛使用KD [8]。KD在这一特定任务中的应用主要集中在提取探测器的不同位置的信息。然而,在模仿特征图的过程中,往往忽略了前景和背景像素的不平衡分布,导致性能较差。为了解决这个问题,[Distilling object detectors with fine-grained feature imitation]的作者提出了一种针对细粒度特征的模仿技术,该技术将检测器的注意力集中在目标上。为了识别中心前景像素,在[Distilling object detectors with task adaptive regularization]中,在真实标签区域中应用二维高斯掩模进行特征提取。这种策略以消除背景为代价来减少不平衡。另一方面,最近的分析[43],[44]表明背景区域包含重要信息。特别是,遥感对象通常与其环境相关联。在蒸馏过程中,重要的是要注意物体周围的区域和背景。在[45]中,提出了焦点和全局蒸馏,包括用于前景-背景分离的焦点蒸馏和用于像素关系恢复的全局蒸馏。在[8]中,作者将教师检测器的边界回归损失与回归元素和无界回归数据的传输相结合,这在回归中缺乏不同难度的对象之间的区别。

3 方法

A.基于局部和全局注意力的掩码

B.基于特征的蒸馏

C.全局蒸馏

D.Head 蒸馏

4 实验

1 FGFI  Distilling object detectorswith fine-grained feature imitation

2 TAR   Distilling object detectors with task adaptive regularization

3 DKD   Learning efficient and accurate detectors with dynamic knowledge distillation in remote senseng imagery

4 FGD   Focal and global knowledge distillation for detectors

5 LD

5 结论

        本文介绍了AFD,一种新的基于mask的KD方法,用于遥感图像中的目标检测,有效地利用局部和全局注意力方法来获得局部特征和背景信息。为了提取局部特征,我们将输入图像的特征图分割成块并应用注意力方法。我们的方法通过从一系列对象中提取细粒度特征和更重要的背景信息来增强蒸馏性能。我们证明明AFD在结合不同的检测系统时效果优于其他KD技术时。检测结果表明,AFD的性能超过了现有的模型,可以应用于各种检测器,如单阶段,两阶段,甚至无anchor-free。此外,我们进行了消融实验和分析,证明了从多个区域提取局部信息的重要性。我们相信我们的工作预示着仅依赖于全局信息的传统KD方法的转折,取而代之的是更有效的将局部和全局信息结合起来的KD方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值