CVPR 2020 Oral | 旷视研究院提出密集场景检测新方法:一个候选框,多个预测结果...

本文介绍了旷视研究院在CVPR 2020上的一篇Oral论文,提出了一种新的基于候选框的密集场景物体检测方法。该方法通过预测多个实例集合,使用EMD Loss和Set NMS技术,解决了高度重叠实例的检测难题,尤其在CrowdHuman数据集上取得了最佳结果。同时,该方法在CityPersons和COCO数据集上也有显著改进,展示了在不同密度场景中的适用性。
摘要由CSDN通过智能技术生成

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。

 

本文是CVPR 2020论文系列解读第8篇。作为 CVPR 2020 Oral展示论文之一, 它提出一种简单却有效的基于候选框的物体检测方法,尤其适用于密集物体检测。该方法通过一个候选框、多个预测框的概念,引入 EMD Loss、Set NMS、精细优化模块等新技术,并在 CrowdHuman 数据集上取得当前最佳结果,在拥挤程度更低的 CityPersons 数据集以及基本很少重叠的 COCO 数据集上也表现优良。论文代码已开源。

 

论文名称:Detection in Crowded Scenes: One Proposal, Multiple Predictions

论文链接:https://arxiv.org/abs/2003.09163

论文代码:https://github.com/megvii-model/CrowdDetection

目录

 

  • 导语

  • 简介

  • 方法

    • 实例集合预测

    • EMD Loss

    • Set NMS

    • 精细优化模块(RM)

  • 实验

  • 总结

  • 参考文献

  • 往期解读 

导语

不管是一阶段方法还是二/多阶段方法,现代物体检测系统已在广泛使用基于候选框的框架。一般来说,该范式的流程分为两步:第一步,以人工设计(比如预定义的锚特征)或可学习(比如区域候选框网络/RPN)的方式生成多于完备的目标候选框;第二步,预测对应于每个候选框的各个实例,为其提供一个置信度分数和经过微调的位置。为了移除重复的预测结果,通常还需要非极大值抑制(NMS) 等方法来执行后处理。

 

尽管基于候选框的方法已经在 COCO 和 PASCAL VOC 等常规数据集上取得了当前最佳表现,但对于密集场景中的有效检测难度依然很大。图 1(a) 展示了一个常见的失败案例:检测器没有成功检测出严重重叠的目标(用虚线框标出)。

图 1:检测密集人群:(a) FPN 基准模型预测的结果;其中虚线框是由于被 NMS 错误地抑制而未能检测到的实例;(b) 将新方法应用于 FPN 后所得到的结果;其正确预测了所有实例。

在密集场景检测中,失败的典型原因有两个:1)高度重叠的实例(及其相关候选框)很可能有非常相似的特征,导致检测器难以为每个候选框各自生成可区分的预测结果(见图 2 示例);2)实例之间严重重叠,预测结果可能会被 NMS 错误抑制,如图 1(a) 所示。

图 2:密集检测的一个经典案例

 

由上图可知,一刀一叉的边界框几乎完全一样。三个边界候选框(红绿蓝)严重重叠。其中 (a) 是预测单个结

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值