RepPoints：Point Set Representation for Object Detection

最新推荐文章于 2025-01-11 10:38:53 发布

qq_33326349

最新推荐文章于 2025-01-11 10:38:53 发布

阅读量488

点赞数

本文提出了一种新的目标检测方法RepPoints，它使用一组样本点代替传统的矩形边界框，能够更准确地定位和识别目标。RepPoints通过学习目标定位和识别损失，自动调整点的分布，以覆盖目标的空间区域和语义重要区域，无需使用锚点。基于RepPoints的检测器在效果上与基于锚点的检测器相当。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接
目前大多数的目标检测器都依赖于矩形的目标框，去表示在不同识别阶段的目标。使用bb是非常方便的，但是只能粗略的对目标进行定位，并且挖掘出来的相应的特征也是粗略的。在本文中，作者提出了代表点（RepPoints），将一系列样本点用于物体定位和识别。通过训练对gt进行定位并识别目标。RepPoints学习自动的安排自己，以限制目标的空间区域范围和表示语义上的重要局部区域。不需要anchor来采样bb，文中设计的基于RepPoints的并且anchor-free的检测器和基于anchor的一样有效。

1 Introduction

目标检测是在一张图像上定位目标并且提供他们的类别标记，作为机器视觉中最基础的任务，很多视觉应用中重要的组成部分。在目标检测中，bb将图像压缩成一个矩形区域，它们描述了通过目标检测器的各个阶段，从anchor到目标区域再到最后的检测。基于这些bb，特征被挖掘用于目标检测以及位置的精确化，bb广泛使用的原因归于预测与gt之间重叠的部分的度量以及方便了深层特征的特征的提取。

2 Related work

bb的好处：（1）歧义小（2）在深度学习之前，几乎所有的图像特征提取器都是规则的输入。RepPoint能被用于替代bb，并可以更高的效率，，其不使用anchor，因为对于目标使用中心点。
可变卷积，视觉识别的最基础的挑战是在各种几何变体中识别物体，为了有效的塑造这样的模型。
RepPoint使用了自上而下的可变卷积，主要的不同是为了更准确的几何定位，采用较为灵活的目标表示。

3可变形卷积

在这里插入图片描述
可变形卷积的表示形式：

其中，x（p₀）为输入特征位置p的特征，y（p₀）为输出特征位置p的特征，w_p为第n采样点的权值，p_n为第n个点预定义的偏移量，△p_n为卷积学习的第n个采样点的位置偏移量。
Deformable ROI Pooling
在这里插入图片描述

当给定输入特征图x，ROI Pooling会将其分为k*k个bins。n_ij是第k个bin的采样点的数量。首先根据ROI Pooling会得到绿色的特征图，增加一个全连接层学习offset。

4 RepPoints

RepPoints是一组样本点，通过location的位置和9个偏移量，将RepPoints转换成bb，主要的方法如下：
（1）所有的点中找到最小值和最大值，获得包括所有点的框
（2）选取所有的点的子集进行（1）的操作
（3）求出均值和方差，利用其得到bb。
在这里插入图片描述
RepPoints是通过学习目标定位损失和目标识别损失，可以自动学习极值点和语义信息。计算定位损失的步骤主要是先将其转换为pseudo box，然后通过计算pb和gt之间的差异。

RPDet

在这里插入图片描述
基于特征的每个位置作为中心点，anchor free的检测器。目标可能存在二义性的问题，FPN可以把同一个位置不同尺度的物体分开；FPN的高分辨率可以减少两个物体落在同一个位置的概率，同时FPN遇到二义性的概率较小。通过回归中心点的偏移量获得第一组RepPoint，第一组进行refine得到第二组，用于表示最终的定位。