(论文阅读)NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing

2020CVPR的密集行人检测论文     

原文链接:            

NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing

摘要: 尽管最近在行人检测方面已经取得了重大进展,但是在拥挤场景中的行人检测仍然具有挑战性。行人之间的严重遮挡给标准非最大抑制(NMS)带来了巨大挑战。交并比(IoU)的阈值相对较低会导致丢失高度重叠的行人,而较高的阈值则会带来大量误报。为避免这种困境,本文提出了一种新颖的“代表性区域NMS(R2NMS)”方法,该方法利用了较少遮挡的可见部分,有效地去除了多余的盒子,而不会带来很多误报。为了获取可见部分,提出了一种新颖的成对盒子模型(PBM),以同时预测行人的完整盒子和可见盒子。完整的盒子和可见的盒子组成一对,作为模型的样本单元,从而确保了整个检测管道中两个盒子之间的强烈对应关系。此外,两个盒子的方便功能集成允许在完整和可见行人检测任务上实现更好的性能。在具有挑战性的CrowdHuman [20]和CityPersons [25]基准测试中,充分验证了所提出的方法在拥挤情况下对行人检测的有效性。

  1. 引言

行人检测是各种现实应用中的关键组成部分,例如无人驾驶汽车和智能视频监控。 近年来,随着深度卷积神经网络(CNN)的兴起,行人检测器的性能得到了快速提高[21,7,8]。 然而,在被遮挡的情况下行人检测仍然具有挑战性。 遮挡通常可以分为类间遮挡和类内遮挡。 在类间遮挡中,人体的一部分被诸如柱子,汽车,垃圾箱等背景物体屏蔽。背景对象的特征使模型混乱,导致这种情况下的高丢失率。 减轻类间遮挡的常见解决方案是基于实例部分进行建模[14、28、15]。 可见部件可以提供更具区分性和信心的线索来指导全身检测器。 在类内遮挡中,行人彼此重叠很多,因此不同实例的特征将使检测器难以区分实例边界。 结果,检测器可能会在重叠区域错误地给出许多阳性结果。 为了解决这个问题,排斥力[23]和AggLoss [26]对出现在两个人中间的BBox提出了额外的惩罚。 这些建议框被迫牢固,紧凑地放置在真实物体上。但是,即使检测器成功识别出人群中的不同人类实体,也可以通过非最大抑制(NMS)的后处理来抑制高度重叠的结果。这使当前的行人检测器陷入了两难境地:较低的交叉口阈值(IoU)导致错过高度重叠的行人,而较高的IoU阈值自然带来了更多的误报。为了解决这个问题,已经提出了NMS的几种修改版本。 soft-NMS [1]不会直接丢弃高度重叠的BBox,而是根据其与最自信的BBox的重叠程度来降低其检测得分。

但是,它仍然会引入许多高度重叠的BBox的误报。自适应NMS [12]提出了动态阈值版本的NMS。它预测密度图,并根据预测的密度为不同的BBox设置NMS中的自适应IoU阈值。但是,密度估计本身仍然是一项艰巨的任务,并且很难确定从密度到最佳IoU阈值的精确匹配。此外,不准确的BBox预测通常会导致地面真实密度与预测的BBox的IoU之间不一致,如图2所示。这使得AdaptiveNMS仍然不是最优解决方案。

在本文中,我们提出了一种新颖的NMS算法,以克服现有的NMS方法(代表区域NMS)的问题。 R2NMS充分利用了NMS中行人的可见部分,从而有效地避免了由困难的NMS在高度重叠的车身上带来的麻烦。 由于行人的可见部分通常受遮挡的影响要小得多,因此相对较低的IoU阈值足以消除定位同一行人的多余BBox,同时避免了大量误报。 R1NMS的图示如图1所示。

为了获得行人的可见部分,我们提出了一种基于标准Faster R-CNN的新颖的配对盒模型(PBM)。 PBM同时预测RPN和R-CNN模块中行人的完整盒子和可见盒子(即从RoI采样到最终的后分类和BBox回归层)。 具体而言,将由全身框和可见框构成的一对定义为RPN和R-CNN模块的样本单元。 这种配对策略可确保整个检测流水线中全身框与可见框之间的强烈对应关系。 此外,配对解决方案还可以将两个盒子进行有效的特征集成,这既有利于完整的可见行人检测任务,又有利于一般的行人检测,相互促进。

在非常拥挤的基准人群CrowdHuman [20]和CityPersons [25]上进行的实验表明,该方法可以达到最新的结果,有力地证明了该方法的优越性。

总而言之,这项工作有三方面的贡献:(1)一种新颖的NMS方法-R2NMS,克服了原始NMS的缺点; (2)配对箱模型(PBM),该模型同时预测单个行人的全身框和可见框,并对两个箱进行方便的特征集成; (3)具有挑战性的CrowdHuman和CityPersons基准的最新结果。

 

  1. 相关工作

通用对象检测: 随着卷积神经网络(CNN)的快速发展[21,7,8],在目标检测领域已经取得了很大的进步。 基于CNN的物体检测器通常分为一级和二级检测器。 一级方法[13、17、10、18]旨在加速探测器的推理过程,以满足各种实际应用中对时间效率的要求。 与一级方法相反,二级检测器[4、19、5]旨在通过添加后分类和回归模块来完善检测结果,以追求最前沿的性能。 为此,Faster RCNN [19]及其变体例如 FPN [9]和Mask R-CNN [6]为通用对象检测任务建立了强大的基线。

行人检测的遮挡处理:遮挡导致行人检测出现两个问题:对遮挡的行人进行错误分类,以及将检测到的结果错误地放置在人群中。解决前一个问题的常见方法是基于零件的方法[28、26、22],该方法精心设计了一系列的身体部位检测器来处理被遮挡实例的特定视觉模式。除上述方法外,最近的一些工作集中在利用可见物体的注释作为额外的监督来提高行人检测的性能。周等。 [29]是第一个同时回归行人完整和可见框身的人。张等。 [27]利用可见部分的注释作为外部指导,以在被遮挡的实例上实现更好的识别性能。 [16]将注意机制纳入行人检测中,以迫使检测器将更多的注意力集中在行人的可见区域上。在拥挤场景中的行人检测也引起了很多关注。 [23]和[26]都对出现在两个人中间的BBox施加了额外的惩罚。自适应NMS [12]预测密度图以执行具有动态阈值的NMS的修改版本。 [24]与我们的工作共享相似的网络架构,但是,不能保证推理阶段非原理部分的回归性能,这使得Double Anchor RPN成为次优解决方案。与所有现有工作不同,我们的方法利用可见区域信息来辅助NMS,并强制模型在整个管道中一起学习完整和可见框,以实现两个盒子之间的强烈对应。

 

  1. 方法

在本节中,我们首先分析处理人群情况时标准NMS和AdaptiveNMS [12]的弱点。 接下来,我们介绍拟议的R2NMS。 最后,我们详细描述配对盒模型(PBM)。

3.1. Analysis on original NMS and Adaptive NMS

在物体检测中,模型可能会对位于同一物体的多个建议框打分。在这种情况下,必须使用NMS根据预测分数滤除不太自信分数的建议框。但是,在拥挤的情况下,真实的不同行人高度重叠。自然,位于不同行人的建议框间也可以有很高的重叠度。因此,当在NMS期间使用相对较低的IoU阈值(如MS COCO基准[11])时(例如0.5),很多正确的建议框就被抑制了。这显着减少了所有实例的召回率,从而损害了最终检测性能。以CrowdHuman数据集为例,对于验证集中的99,481个地面真实实例中的每个实例,我们假设检测器可以生成一个精确的BBox(即,BBox得分为1.0,而BBox与真实实例之间的IoU为也是1.0)。但是,在使用IoU阈值0.5执行标准NMS之后,仅保留了90,232个精确的BBox。在检测中遗漏了近10%的真实实例。这表明在NMS使用相对较低的IoU阈值后,即使是完美的行人检测器也无法检测到所有地面真相实例。相反,在NMS中设置较高的IoU阈值可保留更多的真实阳性结果,同时显着增加假阳性结果。同样,在CrowdHuman验证集中,假设所有真实实例均具有准确的预测BBox,则当将NMS的IoU阈值设置为0.7时,丢失率将减少到1%。但是,较高的IoU阈值在实践中不可避免地会带来更多的误报。例如,在CrowdHuman的验证集中,经过良好训练的基于ResNet-101的Faster R-CNN会在IoU阈值为0.7的NMS之后产生大约15,0000个检测盒,其得分超过0.5。请注意,真实实例号为99,481,因此约50,000个预测的框是冗余或误报。因此,在拥挤的情况下NMS难以解决的难题。

为了克服标准NMS的缺点,提出了AdaptiveNMS [12]。 AdaptiveNMS [12]是NMS的动态阈值版本。 它包含一个子网以预测每个位置的密度,并根据预测的密度为不同的BBox设置NMS中的自适应IoU阈值。 但是,密度估计本身仍然是一项艰巨的任务。 此外,在AdaptiveNMS中仍然需要手工进行从密度到最佳IoU阈值的匹配 (密度àIoU),因此很难获得精确的匹配。 此外,不准确的BBox预测通常会导致地面真实密度与预测的BBox的IoU之间不一致。 该现象如图2所示。所有这些使AdaptiveNMS仍然不是最优的解决方案。

3.2. NMS by Representative Region

为了克服标准NMS和AdaptiveNMS [12]的上述问题,我们提出了一种新的代表性区R2NMS。 R2NMS与标准NMS之间的关键区别在于IoU计算。具体而言,不是直接将两个全身盒的IoU计算为它们的“重叠度”,而是将两个盒子的可见区域之间的IoU用于确定两个全身盒是否重叠。这种基于可见区域的重叠确定基于以下观察。定位不同行人的BBox通常在其可见区域之间的IoU较低,即使两个完整盒子之间的IoU较大。相反,当两个BBox定位同一行人时,整个区域和可见区域都将具有较大的IoU。因此,两个盒子的可见区域之间的IoU是一个更好的指示器,它显示两个全身盒子是否属于同一行人。结果,基于可见区域,相对较低的IoU阈值足以去除定位相同行人的冗余BBox,同时避免了大量的误报。 R2NMS的详细算法在算法1中进行了描述。

3.3. Paired-BBox Faster R-CNN

为了获得行人的可见部分,我们提出了一种新颖的成对盒子模型(PBM),该模型可以同时预测行人的完整框和可见框。为此,PBM基于具有以下三个修改的标准Faster R-CNN,即配对区域提议网络(P-RPN),配对建议框特征提取器(PPFE)和配对R-CNN(P-RCNN) 。 具体而言,PRPN首先生成一组完整/可见建议对,每个建议对对应于行人的完整和可见区域。 然后,PPFE提取每个投标对的特征,并融合完整框和可见框的特征,以提供每个对的集成表示。 最后,将集成表示形式输入到P-RCNN中,以进行成对分类并进一步完善预测的完整BBox和可见BBox。 以这种方式,可以获得具有强烈对应关系的完整和可见物体的BBox,从而有利于R2NMS的使用。

Paired Region Proposal Network. 配对区域提案网络(P-RPN)的职责是生成成对的全身建议框和可见建议框。 由于行人的完整区域和可见区域通常具有较高的重叠度,因此可以从同一anchor回归一对完整的提案和可见的提案。 此外,从同一个anchor回归这两个建议框会在预测的全身建议和可见建议之间提供固有的相关性响应。

                                           

带注释的全身框F和相应的可见框V构成对Q =(F, V),作为模型gt的单位。我们参考文献[29]中的提议匹配方法,在训练P-RPN时为锚点分配真实标签。 更具体地说,在Faster R-CNN [19]中,gt的分配策略通过增加一个限制条件进行了修改。 对于某个锚点,我们考虑其两个IoU w.r.t. 全身gt及其IoF w.r.t. 可见的gt。 形式上,如果满足以下要求,则将锚A视为与地面真对Q =(F, V)正匹配。(一个anchor会匹配上两个gt, 分别是Full GtVisible Gt)

                                                              

在文中,α1和β1分别是全身和可见物体的正阈值。 根据我们的实验,当α1= 0.7和β1= 0.7时,PBM表现最佳。

P-RPN的详细架构遵循Faster R-CNN [19]中的RPN。 唯一的区别在于输出层。 除了预测成对建议框的位置外,PRPN还会预测每对匹配的得分,以显示该匹配对是否是当前行人的可见框与行人全身框匹配。 因此,对于每个密集的anchor,P-RPN会产生长度为10的结果(RfRvS)。 这里RfRv分别是全身和可见框的4-d BBox回归向量 (fxfyfwfh)和 (vxvyvwvh)。 S是softmax归一化后的二维置信度向量(S +,S-)。 训练中使用的损失函数与标准RPN中的损失函数相同。

                                                

Paired Proposal Feature Extractor. R-RPN中的配对策略允许全身建议框和可见建议框之间的固有对应关系。因此,我们提出了成对的建议框特征提取器(PPFE),以有效地整合来自这两种建议框的信息,从而促进对全身和可见行人检测任务的检测。

图5显示了两种建议框的功能集成方法。一个简单明了的方法是在RoI Align之后直接连接全身建议框和可见建议框Ff和Fv的特征向量。 由于在P-RCNN中仅使用fc层,因此无需对两个提议的特征进行空间对齐。实验结果表明,这种简单的特征融合方法可以大大提高性能。

特征集成的第二种方法是基于注意力机制,该机制突出显示信息量更大的可见区域。 具体来说,对于每对建议,我们都会生成一个可见的全身注意mask,该mask显示是否要将对全身建议框中的某个像素显示在可见区域内。 如果全身区域的某个像素也位于可见框中,则将值1分配给注意mask中的该像素。 可见提议之外的像素在注意mask中都设置为0。 然后,在RoI Align之后将注意mask为与提案功能相同的大小,即7×7。 然后,我们以元素方式将全身建议特征Ffmask相乘,以获得可见的mask关注特征Fm。 最后,我们将FvFm连接起来以获得该对的最终集成特征。

Paired R-CNN。PPFE产生的完整的特征用作R-CNN(P-RCNN)的输入。 PRCNN用于根据建议框来进行完整的和可见的行人框的预测。 P-RCNN的详细架构基于Faster R-CNN [19]中的R-CNN模块,并进行了以下修改。 接收到对特征后,P-RCNN包含两个分叉的分支,分别位于两个共享的fc层之后,分别用于完整的和可见的BBoxes预测。 每个分支都具有与标准Faster R-CNN完全相同的体系结构和输出。

                                                             

和P-RPN相同,在P-RCNN最本质的问题就是如何将建议框分配给gt。我使用了一个和P-RPN中的方法十分相似的策略。根据我们的实验结果α2, β2的最佳值是0.5和0.5。在训练阶段的损失函数和Faster-RCNN的损失函数一样。

  和上述讨论的那样,PBM对Faster R-CNN的主要修改几乎没有带来额外的计算,但却带来了大量的性能提升。下一部分的实验结果证明了我们模型的有效性。

  1. 实验

 

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值