（四十）论文阅读 | 密集目标检测之OPMP

最新推荐文章于 2025-02-26 13:07:09 发布

zhangts20

最新推荐文章于 2025-02-26 13:07:09 发布

阅读量3.1k

点赞数 3

分类专栏：论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Skies_/article/details/109767727

版权

论文阅读专栏收录该内容

54 篇文章

订阅专栏

该博客介绍了一篇解决目标密集检测问题的论文。论文提出用一个建议区域预测多个目标实例的算法，引入EMD Loss、Set NMS和RM模块，可克服目标重叠问题，还能集成到多数基于区域的目标检测算法中，在FPN - Res50基础网络上有4.9%AP的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

在这里插入图片描述

图1：论文原文

该论文的标题是一个建议区域负责多个目标，通过该思路可以有效缓解目标检测中密集检测的难题。实验结果为在基于 ${\rm FPN}$ - ${\rm Res50}$ 的基础网络上可以获得 ${\rm 4.9\%AP}$ 的提升。论文原文

0. Abstract

论文提出一种高效的基于区域的目标检测器，旨在解决目标密集的检测问题。该论文的核心点时使用一个建议区域预测多个目标实例，加上 ${\rm EMD\ Loss}$ 和 ${\rm Set\ NMS}$ 等的应用，该检测器可以有效克服目标检测中的目标重叠问题。

论文贡献：（一）论文提出一种密集目标检测的算法，使用一个建议区域预测多个目标实例；（二）提出针对原始非极大值抑制的改进；（三）可以集成到大多数基于区域的目标检测算法中。

1. Introduction

基于区域的目标检测器主要分为两个步骤：首先，基于手工或学习产生大量建议区域；然后，基于每个建议区域预测相对应的目标。为了去除重复的预测，通过使用非极大值抑制等后处理手段。虽然这类算法在公开数据上取得了比较大的成功，但仍不能满足密集预测的场景（图中的虚线框表示遗漏的检测结果）：

在这里插入图片描述

图2：检测结果可视化1

造成上图中结果的原因主要来自两点：（1）高度重叠的目标之间往往具有非常相似的特征，这就使得检测器无法有效区分两个检测框是否表征的是同一个目标；（2）非极大值抑制等后处理过程可能滤除重叠目标的检测结果。

该论文提出一种新的解决机制：对于每一个建议区域，它不再仅仅预测一个目标实例，而是有可能同时对应多个。基于这种机制，处于密集目标处的建议区域负责一组实例的预测。此外，在该机制中引入了其他相关技术： ${\rm EMD\ Loss}$ 用于监督模型产生一组针对目标实例的预测； ${\rm Set\ NMS}$ 用于抑制重复的检测结果； ${\rm RM}$ 模块用于处理假阳性样本。

2. Background

为了处理目标检测中的密集重叠检测问题，以前工作提出的改进有：

Advanced NMS 原始的 ${\rm NMS}$ 主要处理的场景是假设在同一位置处不存在多个目标实例，但这种假设在密集检测的场景中不成立，因此存在许多针对原始 ${\rm NMS}$ 的改进： ${\rm Soft\ NMS}$ 和 ${\rm Softer\ NMS}$ 通过降低相邻预测结果的得分来抑制结果而非直接丢弃；基于标注目标大小的先验信息使用二次型优化来预测目标实例，但这种方法的过拟合现象比较严重；其他还有如使用神经网络产生更加复杂和基于数据的去重方法；在 ${\rm NMS}$ 中针对不同的边界框使用不同的阈值。虽然这些方法都是对原始 ${\rm NMS}$ 的改进，但同时也增大了模型的复杂度。

Loss functions for crowded detection 使用一些新的损失函数来解决密集检测的问题： ${\rm Aggregation\ Loss}$ 使得预测框更加密集； ${\rm Repulsion\ Loss}$ 对与多个真实框有重叠的检测结果添加惩罚。

Re-scoring 在众多检测器中，只要建议区域与某个真实框的交并比大于设定的阈值，则该建议区域负责该目标的检测，但同时也会出现多个建议区域负责一个目标的情况，因此通常需要 ${\rm NMS}$ 等后处理操作去除重复的检测。然而，如果设计的损失函数使建议区域和真实框一对一关联，使用 ${\rm NMS}$ 后会遗漏检测结果。使用再得分思路的一些方法：每个真实框对应于一个建议区域，但由于缺少建议区域间的关联，由此可能产生模糊的预测结果。因为对于一个建议区域来说，并不清楚是否还有其他的建议区域与此真实框对应； ${\rm RelationNet}$ 建立了建议区域间的联系以此来克服上述问题，在 ${\rm COCO}$ 数据集上得到了良好的结果，但在 ${\rm CrowdHuman}$ 数据集上的表现不好，可能是由于后者目标的密集程度大于前者。

3. Our Approach: Multiple Instance Prediction

论文的思路来自于：存在许多目标高度重合的场景，如果一个建议区域对应了目标，那么它也有可能与其他目标重叠。因此，对于这样的建议区域，是否有可能负责这部分所有密集目标的预测。对于建议区域 $b_i$ ，该机制提出预测一组相对应的真实框 $G(b_i)$ ： $G(b_i)=\{g_i\in\mathcal G|{\rm IoU}(b_i,g_i)\geq\theta\}\tag{1}$

其中， $\mathcal G$ 表示一组真实框， $\theta$ 表示设定的交并比阈值。

在这里插入图片描述

图3：密集检测场景

如左图，刀和叉子的边界框几乎重合，三个预测结果也高度重合。假如每个建议框只预测一个结果（可能为空），由于每个区域内的特征也高度相似，这很难实现。此外，在 ${\rm NMS}$ 后可能仅存在一个检测结果。右图是论文中的方法，每个建议区域预测一组目标实例，然后使用 ${\rm NMS}$ 去除重复检测。

Instance Set Prediction 对于每个建议区域，大多数基于区域的检测为每个建议区域预测一对参数 $(\bold c_i,\bold l_i)$ ，其中 $\bold c_i$ 表示类别得分， $\bold l_i$ 表示相对坐标。在该论文中，则是预测一组参数： ${\rm P}(b_i)=\left\{(\bold c_1^{(1)},\bold l_1^{(1)}),(\bold c_i^{(2)},\bold l_i^{(2)}),...,(\bold c_i^{(K)},\bold l_i^{(K)})\right\}\tag{2}$

其中， $G$ 表示最大的预测真实框数。 ${\rm P}(b_i)$ 可以通过额外引入一个预测分支实现。在这里插入图片描述

图4：预测分支

EMD Loss 旨在设计一个损失函数 ${\mathcal L}(b_i)$ 来最小化预测 ${\rm P}(b_i)$ 和 ${\rm G}(b_i)$ ，由此可以定义为集合间距离最小化的问题。因此论文设计的损失函数如下： $\mathcal L(b_i)=\min_{\pi\in \Pi}\sum_{k=1}^K\left[\mathcal L_{cls}(\bold c_i^{(k)},g_{\pi_k})+\mathcal L_{reg}(\bold l_i^{(k)},g_{\pi_k})\right]\tag{3}$

其中， $\pi$ 表示 $(1, 2, . . ., K)$ 的一种特定组合，第 $k$ 项为 $\pi_k$ ； $g_{\pi_k}\in{\rm G}(b_i)$ 表示第 $\pi_k$ 个真实框； $\mathcal L_{cls}$ 和 $\mathcal L_{reg}$ 为分类损失和回归损失。同时，假设 $|{\rm G}(b_i)|=K$ ；如果不满足，则添加一些背景样本。直观上，上述损失函数会搜寻所有的一对一组合，然后通过最小化损失函数值找到最佳的匹配。同时注意到如果 $K = 1$ ，上述函数即为普通的损失函数。

Set NMS 在该机制中，虽然每个建议区域可以预测多个目标，如果仍使用原始的 ${\rm NMS}$ ，则仍不能满足密集检测的场景。使用 ${\rm RMD\ Loss}$ 后，重复的检测结果只可能来自于不同的建议区域。因此，论文基于此提出对原始 ${\rm NMS}$ 的改进 ${\rm Set\ NMS}$ ：每次某个边界框在抑制其他边界框前，添加一个额外的判断来检查这两个预测框是否来自于同一个建议区域；如果是则不产生此次抑制。

Refinement Module 在该机制中，每个建议区域会产生一组针对目标的预测，因此也会带来假阳性样本数量的增加。论文提出一种精修模块 ${\rm RM}$ ，以预测结果和特征作为输入，产生第二次预测结果以丰富预测特征。

Discussion: Relation to Previous Methods 在 ${\rm DPM}$ 中检测行人对；自从深度学习以来， ${\rm MultiBox}$ 在一幅图像中预测所有的实例； ${\rm YOLOv1/YOLOv2}$ 针对每个单元格产生多个预测。与论文最为接近的工作是使用 ${\rm LSTM}$ 在图像的每个网格内编码目标边界框，使用 ${\rm Hungarian\ Loss}$ 作为损失函数。在后处理阶段，使用连接方法将邻接格子的预测合并。

3.1 Network Architecture

论文提出的机制可以适用于绝大多数基于区域的目标检测器中，论文选用 ${\rm FPN+RoIAlign}$ 作为基础检测器，使用 ${\rm RPN}$ 产生建议区域， ${\rm RCNN}$ 分支基于建议区域产生预测。

4. Experiment

在这里插入图片描述

图5：不同NMS的对比

在这里插入图片描述

图6：各Trick的对比

在这里插入图片描述

图7：CrowdHuman数据集1

在这里插入图片描述

图8：CrowdHuman数据集2

在这里插入图片描述

图9：CityPersons数据集1

在这里插入图片描述

图10：CityPersons数据集2

在这里插入图片描述

图11：COCO数据集

5. Conclusion

该论文提出一种针对密集目标的检测方法，即一个建议区域负责多个目标实例的检测，使用包括 ${\rm EMD\ Loss}$ 、 ${\rm Set\ NMS}$ 和 ${\rm RM}$ 等，且该方法可以适用于大多数基于区域的目标检测算法中。由于代码暂时还没有开源，还不清楚基于一个建议区域产生多个预测的具体实现。

6. 参考

Chu X, Zheng A, Zhang X, et al. Detection in Crowded Scenes: One Proposal, Multiple Predictions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12214-12223.

完