QueryDet: Cascaded Sparse Query for Accelerating High-Resolution for Small Object Detection

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution for Small Object Detection

paper:https://arxiv.org/abs/2103.09136
code:https://arxiv.org/abs/2103.09136

摘要

目标检测在小目标中的性能效率不能令人满意。一般促进小目标检测的最常见和有效的方法就是高分辨率图像或特征图。然而会导致计算成本高昂,因此提出了QueryDet,使用了一种新颖的查询机制来加速基于特征金字塔的目标检测推理速度。由两个部分组成:首先在低分辨率特征上预测小目标的粗略位置,使用粗略位置稀疏引导的高分辨率特征计算准确的检测结果。不仅可以获得高分辨率特征图的信息,还能避免对背景区域的无用计算。

介绍

目标检测任务中小尺度目标和普通尺度目标之间存在很大的性能差距,差距主要由三个因素造成:1)由于卷积神经网络主干中的下采样操作,突出小物体的特征被消除了,小尺度目标特征经常被背景中的噪声污染;2)低分辨率特征的感受野可能与小目标的大小不匹配;3)定位小目标比大目标更困难,边界框的小干扰可能会导致IoU的显著影响。
虽然可以缩放输入的大小和减少下采样以保持高分辨率特征来改进小目标检测,但是会产生相当大的计算成本。FPN节省了主干中从浅到深的计算成本,但是检测头在低级特征中的计算复杂度也是很大的。
本文提出了QueryDet,节省检测头的计算量,提高小物体的性能。递归地预测更低分辨率特征图上的小目标粗略位置,来指导高分辨率特征图中的计算。在稀疏卷积的帮助下保持小目标检测的精度并降低低级特征检测头的计算成本。
在这里插入图片描述

相关工作

目标检测:本文实现了基于RetineNet和FCOS的QueryDet,以证明有效性和泛化能力
小目标识别:解决小目标问题的方法1)提高输入特征的分辨率;2)过采样和强大的数据增强;3)结合上下文信息;4)规模感知训练
空间冗余:使用稀疏计算以不同方式利用CNN的空间冗余来节省计算成本

方法

重新审视RetinaNet

在这里插入图片描述
RetinaNet中不同层的计算成本高度不平衡,检测头的FLOPs从P7到P3通过特征分辨率的缩放增加,P3head占据了将近一半的FLOPs,而低分辨率特征P4到P7的成本仅占15%。如果想将FPN扩展到P2以获得更好的小目标性能,成本是无法接受的,高分辨率P2和P3将占据总成本的75%。

通过稀疏查询加速推理

小目标倾向于从高分辨率的低级特征图中检测到,然而小目标通常在空间中分布稀疏,高分辨率特征图上的密集计算范式效率非常低。因此提出了方法来降低低级金字塔的计算成本:首先,在粗略特征图上预测小目标的粗略位置,然后集中计算精细特征图上的相应位置,该过程可以看作是一个查询过程:粗略的位置是查询键,用于检测小目标的高分辨率特征是查询值。在这里插入图片描述
添加了与分类和回归平行的查询头,查询头接受特征图P作为输入,输出热图表示网格中包含小目标的概率。训练期间,将每个级别上的目标定义为规模小于预定义阈值s的对象。对于一个小目标o,我们通过计算其中心位置(xo,yo)与特征图上每个位置之间的距离来编码Query Head的目标图,并将距离小于s的位置设置为1,否则为0,使用FocalLoss训练查询头;在推理过程中,我们选择预测分数大于阈值的位置作为查询,然后将该位置映射到Pl-1上的四个最近邻作为关键位置:
在这里插入图片描述
收集Pl-1上小目标位置形成关键位置集,然后三个头将仅处理这些位置以检测对象并计算下一级的查询。使用关键位置集作为索引从Pl-1中提取特征,使用稀疏卷积计算l-1层上的结果。
为了最大化推理速度,以级联方式应用查询,将此范式命名为级联稀疏查询(CSQ)。

训练

分类和回归头与原始RetinaNet中相同,查询头使用FocalLoss和生成的二进制目标图进行训练:收件计算Pl上每个特征位置(x,y)与所有小目标真实中心之间的最小距离
在这里插入图片描述
在这里插入图片描述
对于每个级别Pl,损失函数定义如下:
在这里插入图片描述
U、R、V是分类输出、回归输出和查询输出,总Loss为:
在这里插入图片描述
通过β重新平衡每一层的损失,使模型同时从所有层中学习,原因是当我们添加更高分辨率的特征时,训练样本的分布发生了显著变化,P2上的训练样本总数甚至大于P3到P7的训练样本总数。如果不平衡,训练将由小目标主导。

与相关工作的关系

虽然与使用RPN的两阶段目标检测器有点相似,但在以下方面有所不同:1)本文仅在粗略预测中计算分类结果,而RPN同时计算分类和回归。2)RPN是在所有级别的全特征图上计算的,本文是稀疏和选择性的。3)两阶段方法依靠RoIAlign或RoIPooling将特征与第一阶段对齐。本文提出的方法与基于FPN的RPN兼容,可以将QueryDet合并到两阶段检测器中以加速生成

实验

我们方法的有效性



表1表2使用两个数据集比较了本文方法和RetinaNet,揭示了检测小目标时使用高分辨率的重要性,然而高分辨率特征图会显著降低推理速度,当采用级联稀疏查询(CSQ)时可以提高推理速度。

消融实验


表3中分析了每个组件对检测精度和速度的影响

讨论


图4显示了查询阈值的影响,在一条曲线中将相邻数据标记依次增加0.05,实验不同输入大小的准确度-速度折中。

表4显示了不同层开始CSQ的结果。

表5比较了裁剪查询(CQ),从高分辨率特征中剪裁出查询相应区域用于后续计算和完全卷积查询(CCQ),使用常规卷积裁剪,只从查询位置提取结果进行后处理,其中CSQ可以达到最快的推理速度。

表6应用CSQ需要构建一个稀疏特征图,其中只有小目标的位置被激活,需要激活小目标周围的上下文区域以避免降低准确性,实验多少上下文平衡速度和准确性。

表7显示了轻量级骨干网的结果。

表8显示了ancher-free的结果。
[外链图片转存失败,源站可能有防盗]!链机制,建(https://img-mKblog.csdnig.n/84000764e57240c9805250531b6fdb17.png)htts://img-blog.csdnimg.cn/84000764e57240c9805250531b6fdb17.png)]

表9显示了二阶段检测器的结果。

可视化和失败案例


图5中可视化了COCO和VisDrone上小目标的检测结果和查询热图,从热图中看出查询头可以成功找到小目标的粗略位置,使CSQ能够有效的检测到小目标。
展示了本文方法的两个失败案例:1)即使查询头正确提取了小目标的核心位置,检测头也可能无法定位(VisDrone第二张图);2)大目标的位置被错误激活,导致检测头处理无用的位置,从而减慢速度(COCO的第一张图)

结论

我们提出 QueryDet,它使用一种新颖的查询机制级联稀疏查询 (CSQ) 来加速基于特征金字塔的密集对象检测器的推理。 QueryDet 使目标检测器能够以低成本检测小物体并易于部署,使其能够在自动驾驶等实时应用程序中部署。 对于未来的工作,我们计划将 QueryDet 扩展到以 LiDAR 点云作为输入的更具挑战性的 3D 对象检测任务,其中 3D 空间通常比 2D 图像更稀疏,并且计算资源对于昂贵的 3D 卷积操作来说更加密集。

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值