CrowdHuman+Double Anchor：强强联合，推动密集行人检测技术落地

旷视

于 2019-12-10 11:10:38 发布

阅读量2.6k

点赞数

本文链接：https://blog.csdn.net/Megvii_tech/article/details/103485685

版权

本文探讨了密集场景行人检测的挑战，重点介绍了CrowdHuman数据集，以及Double Anchor技术，该技术能有效处理密集人群中的行人检测问题。通过对现有数据集的分析，展示了CrowdHuman在拥挤场景检测上的优势，以及Double Anchor如何通过头-人绑定提高检测精度。

摘要由CSDN通过智能技术生成

本文围绕着“密集场景人体检测”这一问题而展开，介绍了CrowdHuman数据集，并讨论了适用于密集场景，并可以实现人-头绑定的检测技术Double Anchor。

本文主题是行人检测（Pedestrian Detection），主要围绕两篇论文展开：

（1）CrowdHuman [1]

CrowdHuman: A Benchmark for Detecting Human in a Crowd

（https://arxiv.org/pdf/1805.00123.pdf）

（2）Double Anchor [2]

Double Anchor R-CNN for Human Detection in a Crowd

（https://arxiv.org/pdf/1909.09998.pdf）

通过这篇文章的解读，可以初步认识下行人检测的难题（拥挤场景检测）以及旷视研究院在解决该难题下的工作和思考。

前言

行人检测就是更具体的目标检测，只需要检测出行人即可。与通用目标检测相比，行人检测有自己的差异化特征。此外，从落地空间以及实用价值来看，行人检测更是一个值得研究的课题，例如可以用于自动驾驶，城市安全等等。

文章开始之前，本文先来聊聊行人检测和通用目标检测的区别，主要有两点：(1). 检测目标类别数不同; (2). 评测指标不同。第一点大家很容易理解，主要谈谈第二点。通用目标检测的评测指标是mAP@0.5-0.95（越高越好），而行人检测的评测指标是mMR (Log-average Miss Rate)（越低越好）。

mAP是对Precision和Recall做整体评估，即P-R曲线下的面积，在这个指标下的低分TP可以带来Recall的提升，因此mAP指标也会提升，这也是RetinaNet[3]涨点的一方面，如果观察其P-R曲线就可以发现很长的尾巴。

而mMR则是在FPPI@0.01-1（平均每张图FP数）下Miss（漏检）的平均，很明显这个指标同时关注FP（误检）和FN（漏检），因此mAP高的模型不一定mMR低。以上就是两个评测指标的区别，两个各有优劣，适用场景不同，例如对于行人检测来说，更重要的是减少FP，如果能减少高分FP将在指标上带来很大的提升。

对于行人检测来说，拥挤遮挡是一个很大的难题，将会导致大量的FP和FN的产生，如图所示：

在拥挤场景，不同人会相互交叠，导致其特征相互交叉以至于难以区分边界，这个时候检测器很可能会把多个人检测成一个人或者检测框会偏移。此外，目标检测系统最后都会有NMS（非极大值抑制）做后处理，但是如果两个人靠得很近，将很难确定NMS的阈值，太大则会导致误检多，太小导致漏检多。上图可以看到黄色虚线是被NMS误杀导致的FN，红色