Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译

论文地址:Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
代码地址:https://github.com/PeizeSun/SparseR-CNN

摘要

我们提出了Sparse R-CNN,一种纯稀疏的方法用于图像中的目标检测。现有的目标检测工作很大程度上依赖于密集候选目标,如在大小为H×W的图像特征图的所有网格上预先定义k个锚。而在我们的方法中,我们为目标识别头提供了一个固定的学习对象建议稀疏集,总长度为N,用于分类和定位。通过将HW k(多达数十万)手工设计的对象候选减少到N个(例如100)可学习的建议,Sparse R-CNN完全避免了所有与对象候选设计和多对一标签分配相关的努力。更重要的是,最终的预测是直接输出的,没有非最大抑制后处理。Sparse R-CNN在精确度、运行时间和训练收敛性能上与在具有挑战性的COCO数据集上建立的良好的检测器基线相当,例如,使用ResNet-50 FPN模型在标准3x训练计划中实现44.5 AP和22 fps运行。我们希望我们的工作能够启发人们对目标检测器中稠密先验约定的重新思考。
在这里插入图片描述

1.介绍

目标检测的目的是在图像中定位一组目标并识别它们的类别。密集先验一直是检测器成功的基石。在经典的计算机视觉中,滑动窗口范例中,一个分类器被应用在一个密集的图像网格上,主导了检测方法数十年。现代主流的one-stage检测器预先定义密集特征图网格上的标记,如图1a所示的anchor[23,29]或参考点[35,44],并预测物体与边界框的相对比例和偏移量,以及相应的类别。虽然two-stage管道工作在一个稀疏的提案集合上,但它们的提案生成算法仍然建立在密集的候选对象上[11,30],如图1b所示。
这些行之有效的方法概念直观,并提供鲁棒性能[8,24],以及快速训练和推理时间[40]。除了它们的巨大成功之外,需要注意的是密集先验检测器也存在一些局限性:

  1. 这样的管道通常会产生冗余和近似重复的结果,因此使得非最大抑制(non-maximum suppression, NMS)[1,39]后处理成为必要的组成部分。
  2. 训练中的多对一标签分配问题[2,42,43]使得网络对启发式分配规则非常敏感。
  3. 最终的性能很大程度上受到尺寸、长宽比和anchor数量[23,29]、参考点密度[19,35,44]和提案生成算法[11,30]的影响。

尽管稠密约定在目标检测器中得到了广泛的认可,但一个自然要问的问题是:是否可能设计一个稀疏检测器?最近,DETR提出将目标检测重构为一个直接稀疏集的预测问题[3],其输入仅为100个学习对象查询[37]。最后一组预测直接输出,不需要任何手工设计的后处理。尽管它的框架简单而奇妙,但DETR需要每个对象查询与全局图像上下文交互。这种密集性不仅降低了[45]的训练收敛速度,而且阻碍了它建立一个完全稀疏的管道进行目标检测
我们认为稀疏属性应该包括两个方面:稀疏框和稀疏特征。稀疏框是指少量的启动框(例如100个)足以预测图像中的所有对象。而稀疏特征表示每个框的特征不需要与全图像上的所有其他特征交互。从这个角度看,DETR不是一个纯粹的稀疏方法,因为每个对象查询都必须与完整图像上的密集特征交互。
在本文中,我们提出了Sparse R-CNN方法,这是一种纯稀疏的方法,不需要所有(密集)图像网格上的对象位置候选枚举,也不需要与全局(密集)图像特征交互的对象查询。如图1c所示,给定目标候选对象,用4-d坐标表示的固定的小组可学习边界框。例如COCO dataset[24],总共需要100 boxes和400 parameter,而不是Region Proposal Network (RPN)[30]中成百上千候选的预测。这些稀疏的候选作为区域提议通过RoIPool [10] 或者RoIAlign [13]来提取RoI特征。
可学习的建议框是对图像中潜在目标位置的统计。而四维坐标仅仅是对物体的粗略表示,缺乏大量的信息细节,如姿态和形状。这里我们引入另一个概念,称为提案特征,它是一个高维(例如,256)的潜在向量 。与粗糙边界框相比,期望编码丰富的实例特征。特别地,提案特征为其独有的目标识别头生成一系列自定义参数。我们称这种操作为Dynamic Instance Interactive Head,因为它与最近的动态方案有相似之处[18,34]。与[30]中共享的2-fc层相比,我们的Head更灵活,在精度上也有显著领先。在实验中,我们证明了以独特的提案特征而不是固定的参数为条件的Head的形成是Sparse R-CNN成功的关键。提议框和提议特征在整个网络中与其他参数一起随机初始化和优化
在我们的Sparse R-CNN中最显著的性质是它在整个时间内的Sparse-in -Sparse-out范式。初始输入是一组稀疏的提案框和提案特征,以及一对一的动态实例交互。管道中既不存在稠密候选特征[23,30],也不存在与全局(稠密)特征[3]交互的情况。这种纯粹的稀疏性使得Sparse R-CNN成为R-CNN家族的一个新成员。
Sparse R-CNN在具有挑战性的COCO数据集[24]上证明了其准确性、运行时和训练收敛性能与成熟的检测器[2,30,35]相当,例如,在标准3x训练计划中实现44.5 AP,使用ResNet-50 FPN模型以22 fps运行。据我们所知,提出的Sparse R-CNN是第一个证明一个相当稀疏的设计是合格的。我们希望我们的工作能够启发人们对稠密先验在目标检测中的必要性进行反思,并探索下一代的目标检测器。

2.相关工作

Dense method:滑动窗口模式在目标检测中已经流行多年。受经典特征提取技术的限制[6,38],该算法的性能已经停滞了几十年,应用场景也受到限制。深度卷积神经网络(CNNs)的发展[14,17,20]培养了通用的目标检测方法,并取得了显著的性能提升[8,24]。主流的方法之一是one-stage检测器,它可以直接预测锚的类别和位置,用 single-shot的方式密集地覆盖空间位置、尺度和纵横比,例如OverFeat [32],YOLO [29],SSD [25] 和RetinaNet [23]。最近,人们提出了anchor-free算法[16,21,35,44],通过用参考点代替手工制作的锚,使这条管道变得更加简单。以上方法都建立在密集候选的基础上,对候选对象直接进行分类和回归。这些候选对象在训练时根据预定义的原则被分配到ground-truth对象框中,例如锚点是否与其对应的ground truth的IoU高于阈值,或者参考点是否落在其中一个目标框中。此外,NMS后处理[1,39]需要在推理期间去除冗余的预测。

Dense-to-sparse method :Two-stage检测器是另一个主流管道,并已主导现代目标检测多年[2,4,10,11,13,30]。这个范例可以看作是稠密检测器的扩展。该算法首先从密集区域候选方案中获取稀疏的前景方案框,然后细化每个方案的位置并预测其具体类别。在这two-stage的方法中,区域建议算法在第一阶段起着重要的作用,如R-CNN中的选择性搜索[36]和Faster R-CNN中的区域建议网络(RPN)[30]。与密集管道相似,它也需要NMS后处理和手工标记分配。在成千上万的候选方案中,只有少数的前景方案,因此这些检测器可以归结为 dense-to-sparse方法。

最近,DETR[3]的提出直接输出预测,而不需要任何手工制作的组件,从而获得非常有竞争力的性能。DETR利用一组稀疏的对象查询,与全局(稠密)图像特征进行交互,在这种情况下,它可以看作是另一种dense-to-sparse的表示。

Sparse method :稀疏目标检测有可能消除设计密集候选对象的努力,但已落后于上述检测器的准确性。G-CNN[27]可以看作是这组算法的先驱。它首先在图像上创建一个多尺度的规则网格,然后迭代更新方框来覆盖和分类对象。这种手工设计的规则先验显然是次优的,不能达到最佳性能。相反,我们的Sparse R-CN

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值