MaxPool NMS Getting rid of NMS bottlenecks in Two-Stage Object Detectors

最新推荐文章于 2023-03-09 07:17:23 发布

lmy370125

最新推荐文章于 2023-03-09 07:17:23 发布

阅读量1.6k

点赞数 2

文章标签： NMS CVPR CV

本文链接：https://blog.csdn.net/lmy370125/article/details/102072161

版权

个人理解

目前的NMS不能进行并行的硬件加速。

论文翻译

MaxpoolNMS:消除在两阶段目标检测器中NMS的瓶颈

abstract

现代的卷积目标检测器极大地提高了检测精度，这反过来又激发了专用(dedicated,专注于，献身于）硬件加速器的开发，以通过利用算法中固有的并行性（parallelism）来实现实时性能。非最大抑制（NMS）是对象检测中必不可少（indispensable）的操作。与大多数操作形成鲜明对比的是，常用的GreedyNMS算法不会促进(foster,养育，抚育；培养；抱)并行性，而并行性可能是主要的性能瓶颈。在本文中，我们介绍了MaxpoolNMS，它是基于最大池分类分数图的NMS算法的可并行化替代方案。通过采用新颖的多尺度多通道maxpooling策略，当在各种基准数据集（即MS OCO，KITTI和PASCAL VOC）中进行量化时，我们的方法比GreedyNM S快20倍，同时达到相当的精度。此外，与GreedyNMS相比，我们的方法更适合基于硬件的加速。

alternative 可选择的，替代的，不正常，非正统的。
novel abj. 新奇的，异常的 n. 小说

1. intruduction

深度神经网络（DNN）引起了物体检测精度的重大飞跃。基于DNN的最新对象检测算法可以大致分为一阶段和两阶段方法。一阶段目标检测器（例如YOLO [24]和SSD [22]）以滑窗方式运行，从而可以对输入图像中的密集采样位置进行预测。或者，两阶段方法（例如Faster R-CNN [25]和R-FCN [5]）首先生成稀疏的区域提议集，然后执行第二阶段预测以对每个提议进行分类并改善其位置。两阶段方法始终比一阶段方法具有更高的精度，但速度明显慢[18]。
两阶段目标检测器由一个假设候选对象位置的（第一阶段）区域提议网络（RPN）和一个对区域提议进行细化改善的（第二阶段）检测网络组成。RPN和检测网络共享相同的特征提取器网络。图1显示了两阶段物体检测器的典型方框。通常，特征提取器，区域提议和对象检测网络会消耗大量执行时间。通常，特征提取器，区域提议和对象检测网络会消耗执行时间的很大一部分。这些层包含卷积和池化操作，原则上可以将它们映射到高度并行的硬件加速器（例如Google TPU [19]），而其余块（即非极大抑制（NMS））则不是这种情况。（这里说的意思是，NMS并不能映射到高度并行的硬件加速器）
在这里插入图片描述
leap vi. 跳，跳跃 n. 跳跃；飞跃 vt. 跳跃，跳过；使跃过
densely adv. 密集的
sparse adj. 稀疏的，稀少的
refine vt. 精炼，提纯；使…文雅；改善
consistently adv. 一贯地;坚持地；固守地；始终
hypothesizes v. 假设,假定,猜测
candidate n. 申请求职者, 候选人报考者
block n. 块；街区；障碍物；大厦 vt. 阻塞；阻止；限制 adj. 成批的，大块的；交通堵塞的
portion n. 一部分, 一份 vt. 把…分成份额, 分配

NMS是必不可少的功能，因为它可以消除重复的检测，从而减少误报（false positives）（NMS可以消除一些重复的propoasl）。区域提议网络和对象检测网络都采用NMS作为后处理步骤(post-processing step)。普遍采用的GreedyNMS [7]是一种简单的手工方法。在区域提议网络中应用时，它首先根据所有候选检测框的客观评分对它们进行排序，然后通过两个嵌套循环贪婪地选择高评分框并删除与所选框明显重叠的其他框。内部循环是可并行化的，但是外部循环本质上（in nature）是顺序的–如果不首先检查前面的框，就不能确定是否应该选择后面的框。当在对象检测网络中应用GreedyNMS时，processed boxes的数量要比RPN少得多（例如300对6000），并且针对每个对象类别分别进行处理。

duplicate n. 完全一样的东西, 复制品 adj. 完全一样的, 复制的 vt. 复制复印
crafted adj. 精心制作的 v. 精巧地制作（craft的过去分词）
nested adj. 嵌套的
loops n. 封闭的环形；循环（loop复数）v. 使…成环，以圈结，以环连结（loop的第三人称单数形式）
inner adj. 内部的, 里面的内心的
sequential adj. 按次序的,相继的,构成连续镜头的s
examining vt. 仔细检查考试, 对…进行考核审查, 审问

NMS可能导致性能瓶颈，因为它不容易并行化。如图2所示。随着GPU变得越来越强大，在卷积运算上花费的时间显着减少，而在NMS上花费的时间没有受到影响，并且逐渐占据了总执行时间的一部分。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hdyLgQho-1570171620709)(en-resource://database/3992:1)

induce vt. 引诱；[电]感应；[医]诱导；引起
projected adj. 规划的，设计的预期的，估计的

在本文中，我们介绍了一种可扩展且可并行化的方法来在区域提议网络中执行NMS。关键见解是，一个object proposal对应于objiectness score map中的一个峰值，因此我们利用最大池化来获得该峰值。因此，该方法称为MaxpoolNMS。通过采用新颖的多尺度多通道最大合并策略，与GreedyNMS相比，我们的方法可同时获得相当的精度和高达20倍的提速。我们的方法避免了计算联合的交集（IoU），并且仅依赖于最大池操作，因此具有高度可并行性。

scalable adj. 可扩展；可攀登的；可去鳞的；可称量的
insight n. 洞察力, 洞悉, 深刻的见解领悟, 顿悟
corresponds vi. 相符合, 相一致相当, 相类似通信
simultaneously adv. 同时的
comparable adj. 类似的, 同类的, 相当的可比较的, 比得上的
versus prep.(表示两队或双方对阵) 对，诉，对抗; (比较两种不同想法、选择等) 与…相对，与…相比;

2. Related Work

Convolutional object detectors

NMS in object detection

NMS已被用作几代检测器的后处理步骤。事实算法GreedyNMS最早在[7]中被证明可以超越其他人类检测方法。从那时起，它一直是对象检测的标准组件，并广泛用于一级和二级检测器中。 Soft-NMS [1]是GreedyNMS的一种变体，它衰减了邻近检测的分数，而不是完全去除它。已经证明，它可以将目标检测器的mAP提高约1-2％。但是，本文仅在第二阶段的检测网络中应用它替代了GreedyNMS，目前尚不清楚它是否也可以替代区域提议网络中的GreedyNMS。适应性NMS [26]通过预测的适应性值对原始分类分数进行加权，从而使具有较高IoU且具有地面真实性框的框具有较高的分数。另一研究领域是用可学习的网络体系结构替换GreedyNMS，以便可以对模型进行全面的端到端训练。这个想法是仅预测一个对象的高得分检测，而实现此目的的关键是设计以对同一对象的多次检测为条件的特征。 Tnet [15]是用于NMS的卷积网络，其中检测和其相邻框之间的IoU值与得分值一起使用以进行稀疏预测。 Gnet [16]计算检测项及其邻居之间的成对上下文特征，以生成特征表示。关系网络[17]通过来自其他检测的外观特征的加权和来计算用于检测的关系特征。由于成对计算和其他网络体系结构，这些方法更适合部署在处理盒数量少的第二阶段检测网络中。同样，所有这些工作都集中在提高GreedyNMS的ac9357的正确性上，而速度和并行性方面则尚未开发。

3. Method

现代卷积目标检测器利用多尺度“锚”实现尺度不变的目标检测。在RPN中，针对每个锚点训练二进制分类器（即对象/背景）和位置回归器。将训练有素的分类器应用于输入图像的密集采样位置（通常跨度为16）会产生objectness score map。图3显示了来自KITTI数据集的输入图像的12个客观评分图。我们使用4个比例{ $62^2$ ， $128^2$ ， $256^2$ ， $512^2$ }和3个宽高比（宽高）{1:2 、1：1：1、2：1}来生成锚。我们在这些地图上进行以下观察。

1.对象对应于map上的峰。这是由于这样的事实，在训练过程中，只有具有较高IoU（例如，高于0.7）且具有ground truth boxes的锚点才被视为正样本，因此只有包含对象的锚点在测试期间可以具有较高的objectness scores。峰值锚附近的锚也可能具有较高的响应速度，因为相似的输入对于连续的分类功能应产生相似的输出。
2.score map是特定于比例和长宽比的，并且仅响应大约那个大小的物体。这是因为小（大）锚框只能与小（大）地面真实物体匹配，因此只能训练它们检测小（大）物体。
3.一个对象可以在多个score maps上具有高响应。这是由于以下事实：实际的对象比例和纵横比是连续的，而预定义的锚点大小却离散了。对象的大小可能介于两个相邻的锚点大小之间，因此在两个地图上都具有强烈的响应。以图3所示的图像为例。右侧的绿色汽车在两个相邻的长宽比（得分图（e）和（i））以及两个相邻的比例尺（得分图（e）和（f））中都有较高的响应率。

这些观察结果表明，最大池操作可能足以获取一组有意义的对象建议。由于对象是得score map的局部最大值，因此可以通过最大池来拾取它，其最大作用是在局部窗口中选择最大值。此处的关键参数是内核大小和最大池化的步幅。观察2提供了有关如何有效设置参数的见解。由于每个score map都专注于检测特定大小的对象，因此我们将内核大小和最大合并步幅设置为与锚框大小成比例。为了进一步减少误报，观察3建议我们可以跨相邻得分图执行多通道最大池化，以删除同一对象的重复响应。在获得通过maxpooling返回的proposals之后，我们按proposals排序，并输出固定数目的proposals为第二阶段的预测。接下来，我们提供有关如何进行多尺度和多通道最大池化的详细信息。

utilizes vt. 利用
invariant adj. 无变化的,不变的 n. 不变式,不变量
aspect n. 方面方位, 朝向面貌, 模样, 神态
observations n. 注意; 观察观察力言论, 评论, 意见观察资料, 观察数据

correspond vi. 相符合, 相一致相当, 相类似通信
containing vt. 包含; 容纳控制, 抑制

predefined vt. 预先确定
discretized 离散

meaningful adj. 有目的的,有用意的;有意义的 adv. 意味深长地 n. 富有意义

3.1 Multi-scale max-pooling

由于score map是由多尺度锚点生成的，因此在进行最大池化时，自然会对不同分数图使用多尺度内核大小。给定一个大小为h×w的锚点的score map，大小为h×w的对象将大致投影到地图上的在这里插入图片描述区域，其中s是map的步幅。假设两个对象的中心在图像上相距αw，它们将与score map上相距的两个峰相对应。为了不遗漏任何一个针对对象建议的峰值，可以将内核大小和最大池操作沿x维度的步幅设置为：

同样，对于y维度，我们将参数设置为：
在这里插入图片描述
表1列出了由等式计算的12个得分图的内核大小和步幅。 Eq.1和Eq.2，α= 0.25，s =16。算法1总结了执行多尺度最大池化的算法。

在这里插入图片描述

3.2 Multi-channel max-pooling

一个对象可以在相邻的分数图上产生多个峰。此属性可用于减少误报。具体来说，我们在两个相邻的score map上应用了2通道最大合并。如果两张地图在图3所示的缩放纵横比网格中水平或垂直连接，则将其视为“邻居”。要执行跨纵横比的2通道最大合并（算法2），我们首先执行max-pooling on $M^{score}_ {i , j}$ ，然后在通道维度上将 $M^{score}_ {i , j}$ 的最大池化结果与 $M^{score}_ {i+1 , j}$ 合并，然后在级联映射上执行2通道maxpooling。跨尺度的最大池化（算法3）以类似的方式进行。算法2和算法3之间的区别在于内核大小的选择和2通道最大池化的步幅。对于跨scale的最大池化，我们发现有必要使用两个图的较小的内核大小和步幅之一，否则较小比例分数图上的峰会被错误地删除。