IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。
本文是CVPR 2020论文系列解读第8篇。作为 CVPR 2020 Oral展示论文之一, 它提出一种简单却有效的基于候选框的物体检测方法,尤其适用于密集物体检测。该方法通过一个候选框、多个预测框的概念,引入 EMD Loss、Set NMS、精细优化模块等新技术,并在 CrowdHuman 数据集上取得当前最佳结果,在拥挤程度更低的 CityPersons 数据集以及基本很少重叠的 COCO 数据集上也表现优良。论文代码已开源。
论文名称:Detection in Crowded Scenes: One Proposal, Multiple Predictions
论文链接:https://arxiv.org/abs/2003.09163
论文代码:https://github.com/megvii-model/CrowdDetection
目录
导语
简介
方法
-
实例集合预测
EMD Loss
Set NMS
精细优化模块(RM)
实验
总结
参考文献
往期解读
导语
不管是一阶段方法还是二/多阶段方法,现代物体检测系统已在广泛使用基于候选框的框架。一般来说,该范式的流程分为两步:第一步,以人工设计(比如预定义的锚特征)或可学习(比如区域候选框网络/RPN)的方式生成多于完备的目标候选框;第二步,预测对应于每个候选框的各个实例,为其提供一个置信度分数和经过微调的位置。为了移除重复的预测结果,通常还需要非极大值抑制(NMS) 等方法来执行后处理。
尽管基于候选框的方法已经在 COCO 和 PASCAL VOC 等常规数据集上取得了当前最佳表现,但对于密集场景中的有效检测难度依然很大。图 1(a) 展示了一个常见的失败案例:检测器没有成功检测出严重重叠的目标(用虚线框标出)。
图 1:检测密集人群:(a) FPN 基准模型预测的结果;其中虚线框是由于被 NMS 错误地抑制而未能检测到的实例;(b) 将新方法应用于 FPN 后所得到的结果;其正确预测了所有实例。
在密集场景检测中,失败的典型原因有两个:1)高度重叠的实例(及其相关候选框)很可能有非常相似的特征,导致检测器难以为每个候选框各自生成可区分的预测结果(见图 2 示例);2)实例之间严重重叠,预测结果可能会被 NMS 错误抑制,如图 1(a) 所示。
图 2:密集检测的一个经典案例
由上图可知,一刀一叉的边界框几乎完全一样。三个边界候选框(红绿蓝)严重重叠。其中 (a) 是预测单个结