CVPR 2020 Oral | 旷视研究院提出密集场景检测新方法：一个候选框，多个预测结果...

旷视

于 2020-04-24 10:22:35 发布

阅读量3.8k

点赞数 2

分类专栏： CVPR2020

本文链接：https://blog.csdn.net/Megvii_tech/article/details/105743293

版权

本文介绍了旷视研究院在CVPR 2020上的一篇Oral论文，提出了一种新的基于候选框的密集场景物体检测方法。该方法通过预测多个实例集合，使用EMD Loss和Set NMS技术，解决了高度重叠实例的检测难题，尤其在CrowdHuman数据集上取得了最佳结果。同时，该方法在CityPersons和COCO数据集上也有显著改进，展示了在不同密度场景中的适用性。

摘要由CSDN通过智能技术生成

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布，旷视研究院 16 篇论文被收录（其中含 6篇 Oral 论文），研究领域涵盖物体检测与行人再识别（尤其是遮挡场景），人脸识别，文字检测与识别，实时视频感知与推理，小样本学习，迁移学习，3D感知，GAN与图像生成，计算机图形学，语义分割，细粒度图像，对抗样本攻击等众多领域，取得多项领先的技术研究成果，这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是CVPR 2020论文系列解读第8篇。作为 CVPR 2020 Oral展示论文之一，它提出一种简单却有效的基于候选框的物体检测方法，尤其适用于密集物体检测。该方法通过一个候选框、多个预测框的概念，引入 EMD Loss、Set NMS、精细优化模块等新技术，并在 CrowdHuman 数据集上取得当前最佳结果，在拥挤程度更低的 CityPersons 数据集以及基本很少重叠的 COCO 数据集上也表现优良。论文代码已开源。

论文名称：Detection in Crowded Scenes: One Proposal, Multiple Predictions

论文链接：https://arxiv.org/abs/2003.09163

论文代码：https://github.com/megvii-model/CrowdDetection

导语
简介
方法
- 实例集合预测
- EMD Loss
- Set NMS
- 精细优化模块（RM）
实验
总结
参考文献
往期解读

导语

不管是一阶段方法还是二/多阶段方法，现代物体检测系统已在广泛使用基于候选框的框架。一般来说，该范式的流程分为两步：第一步，以人工设计（比如预定义的锚特征）或可学习（比如区域候选框网络/RPN）的方式生成多于完备的目标候选框；第二步，预测对应于每个候选框的各个实例，为其提供一个置信度分数和经过微调的位置。为了移除重复的预测结果，通常还需要非极大值抑制（NMS）等方法来执行后处理。

尽管基于候选框的方法已经在 COCO 和 PASCAL VOC 等常规数据集上取得了当前最佳表现，但对于密集场景中的有效检测难度依然很大。图 1(a) 展示了一个常见的失败案例：检测器没有成功检测出严重重叠的目标（用虚线框标出）。