【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

【论文速递】CVPR2022 - 用于密集物体检测的定位蒸馏

【论文原文】:Localization Distillation for Dense Object Detection

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9878414
CSDN下载:https://download.csdn.net/download/qq_50757624/87418718

博主关键词: 目标检测,定位,知识蒸馏

推荐相关论文:

-无

摘要:

知识蒸馏(KD)在目标检测中学习紧凑模型方面的强大能力。以往的目标检测KD方法主要集中在模仿模仿区域内的深度特征,而不是模拟分类logit,因为它在提取定位信息方面效率低下,而且改进微不足道。本文通过重构定位知识蒸馏过程,提出了一种新的定位蒸馏(LD)方法,该方法可以有效地将定位知识从教师传递给学生。此外,我们还启发式地引入了有价值的定位区域的概念,可以帮助选择性地提取特定区域的语义和定位知识。结合这两个新组件,我们首次证明了logit模拟可以优于特征模仿,而定位知识蒸馏在提取对象检测器方面比语义知识更重要、更有效。我们的蒸馏方案简单而有效,可以很容易地应用于不同的密集物体探测器。实验表明,我们的LD可以在COCO基准测试中将GFocal-ResNet-50的AP分数从1.40提高到1.42,而不会牺牲推理速度。我们的源代码和预训练模型可在 https://github.com/HikariTJU/LD 公开获得。

关键词 :目标检测,定位,知识蒸馏。

简介:

定位是目标检测中的一个基本问题[[15],[24],[33],[49],[50],[55],[57],[61],[68]]。 边界框回归是迄今为止对象检测中最流行的定位方式[10],[32],[39],[42],其中狄拉克增量分布表示直观且流行多年。但是,无法通过边缘确定定位对象的定位模糊仍然是一个常见问题。例如,如图 1 所示,“大象”的底部边缘和“冲浪板”的右边缘定位模糊不清。对于轻量级探测器来说,这个问题甚至更糟。缓解这一问题的一种方法是知识蒸馏(KD),作为一种模型压缩技术,它已被广泛验证,可以通过转移大型教师网络捕获的通用知识来提高小型学生网络的性能。
在这里插入图片描述

Fig. 1. Bottom edge for “elephant” and right edge for “surf-board” are ambiguous.

说到目标检测中的KD,以前的工作[22],[52],[62]指出原始的logit模拟技术[19]用于分类是低效的,因为它只传递语义知识(即分类),而忽略了定位知识蒸馏的重要性。因此,现有的KD目标检测方法主要侧重于加强师生对之间深层特征的一致性,并利用各种模仿区域进行蒸馏[5],[8],[16],[25],[52]。图 2 展示了三种用于对象检测的常用 KD 流水线。然而,由于语义知识和定位知识在特征图上是混合的,很难判断每个位置的混合知识转移是否有利于性能,哪些区域有利于某种类型知识的转移。
在这里插入图片描述
Fig. 2. Existing kd pipelines for object detection. ➀ logit mimicking: classification kd in [19]. ➁ feature imitation: recent popular methods distill intermediate features based on various distillation regions, which usually need adaptive layers to align the size of the student’s feature map. ➂ pseudo bbox regression: treating teachers’ predicted bounding boxes as additional regression targets.

在上述问题的启发下,本文不是简单地提炼特征图上的混合知识,而是提出了一种新颖的分而治之的精炼策略,将语义和本地化知识分开转移。对于语义知识,我们使用原始分类KD [19]。对于本地化知识,我们重新制定了本地化的知识转移过程,并通过将边界框切换到概率分布来提出一种简单而有效的本地化蒸馏(LD)方法[28],[37]。这与之前的工作[5],[47]完全不同,后者将教师的输出视为额外的回归目标(即图2中的伪BBox回归)。受益于概率分布表示,我们的LD可以有效地将教师学到的丰富本地化知识传授给学生。此外,基于提出的分而治之精馏策略,我们进一步引入了有价值的定位区域(VLR),以帮助有效地判断哪些区域有利于分类或定位学习。通过一系列的实验,我们首次表明,原始的logit模仿可以比特征模仿更好,本地化知识提炼比语义知识更重要、更有效率。我们相信,根据各自的有利区域分别提炼语义和定位知识可能是训练更好的对象检测器的一种有前途的方法。
我们的方法很简单,可以很容易地在任何密集的目标检测器中配备,以提高其性能,而不会引入任何推理开销。对MS COCO的大量实验表明,在没有其他功能的情况下,我们可以将具有ResNet-28-FPN骨干的强基线GFocal [50]的AP分数从40.1提高到42.1,并且AP75从 43.1 到 45.6。我们使用ResNeXt-101-32x4d-DCN骨干网的最佳模型可以实现50.5 AP的单尺度测试,这超过了相同backbone,neck和测试设置下的所有现有探测器。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值