#今日论文推荐# ResNet50上天 | DDQ改进Sparse RCNN让ResNet50在coco上来到了49.8的AP

最新推荐文章于 2024-09-09 12:00:42 发布

wwwsxn

最新推荐文章于 2024-09-09 12:00:42 发布

阅读量220

点赞数

文章标签： transformer 深度学习计算机视觉

原文链接：https://www.aminer.cn/research_report/62a158557cb68b460fcded85?download=false

版权

#今日论文推荐# ResNet50上天 | DDQ改进Sparse RCNN让ResNet50在coco上来到了49.8的AP

在 DETR 出现之后，端到端的目标检测得到了迅速的发展。DETR 使用一组稀疏查询来替换大多数传统检测器中的密集候选框。相比之下，稀疏查询不能保证作为密集先验的高召回率。但是，在当前框架中，使查询变得密集并非易事。它不仅计算成本高，而且优化困难。由于稀疏查询和密集查询都不完美，那么端到端目标检测中的预期查询是什么？
本文表明预期的查询应该是密集的不同查询（DDQ）。具体来说，将密集先验引入框架以生成密集查询。对这些查询应用重复查询删除预处理，以便它们彼此区分开来。然后迭代处理密集的不同查询以获得最终的稀疏输出。
实验展示了 DDQ 更强大、更健壮且收敛更快。它在 MS COCO 检测数据集上仅用 12 个 epoch 就获得了 44.5 AP；在各种数据集上的目标检测和实例分割任务上都优于以前的方法。DDQ 融合了传统密集先验和最近的端到端检测器的优势。作者希望它可以将 DDQ 作为一个新的Baseline，并激发研究人员重新审视传统方法和端到端检测器之间的互补性。

目标检测是计算机视觉中最基本的挑战之一，旨在用单个边界框定位每个目标。它带来了一个具有挑战性的问题，即准确的目标检测器既要检测所有目标又要避免预测重复的框。

为了解决这个问题，以前最先进的方法大多遵循标准范式，如图 1（a）所示，首先生成密集的候选框，然后将一个 GT 分配给许多候选框以实现高目标召回；然而，一对多的分配会导致冗余预测。由于在目标检测中每个目标应该只有一个预测，因此采用辅助后处理，例如非极大值抑制（NMS）来去除重复的预测。尽管多年来一直主导目标检测，但该 Pipeline 在不损害正确预测的情况下完美过滤掉了重复框。

论文题目：What Are Expected Queries in End-to-End Object Detection?
详细解读：https://www.aminer.cn/research_report/62a158557cb68b460fcded85?download=falsehttps://www.aminer.cn/research_report/62a158557cb68b460fcded85?download=false
AMiner链接：https://www.aminer.cn/?f=cs