RepPoints论文解读

写在最前面

这一系列文章是博主2020年本科论文调研时记的,现在是多模态的时代,很多技术都过时了,发出来希望对读这些论文的人有所帮助

Title

RepPoints:Point Set Representation for Object Detection

Summary

RepPoints是一种全新的表征物体的方式,很有借鉴价值,但RPDet本身创新性不高,也即RepPoints可能可以用于其他网络架构。

Research Objective

使用一种新的物体表示方式:RepPoints,摆脱bounding box,来达到state-of-the-art的检测结果。

Problem Statement

现在的目标检测器很依赖于矩形的bounding box,例如anchor、proposal和最终的预测,来表示不同识别阶段的目标。bounding box使用很方便:(1)bounding box和ground truth box之间的overlap是公认的目标检测性能的度量方式;(2)在深度神经网络中便于特征提取。但是bounding box只提供物体的一个大概的定位,并会导致对应物体特征的粗略提取,因为它没有考虑物体的形状、姿势以及在语义上比较重要的区域。

Methods

1.Overview
在这篇论文中,我们提出一种新的表示,RepPoints,来提供更加细粒度的定位信息并有助于分类:
在这里插入图片描述
RepPoints是一组点,它学习以一种约束目标空间范围的方式在目标上自适应地定位自己,并指示语义上重要的局部区域,RepPoints的训练由目标定位和识别共同完成,这使得RepPoints和ground truth box紧密结合并能引导检测器进行正确的目标分类,这种自适应和可微的表示可以在现在的目标检测器的不同阶段被一致地使用,并且不需要使用anchors来对bounding box进行采样。
2.RepPoints
RepPoints是一系列采样点:
在这里插入图片描述
RepPoints refinement
逐步改进bounding box定位和特征提取对多阶段目标检测方法的成功至关重要,对于RepPoints,改进的过程可以简单的表示为:
在这里插入图片描述
由于在RepPoints的改进过程中偏移量有相同的尺度,因此这种改进不面临边界框回归参数之间的尺度差异问题。
Converting RepPoints to bounding box
为了在RepPoints的训练中利用bounding box标记,以及评估基于RepPoints的目标检测器,需要一种将RepPoints转换为bounding box的方法。
下面是三种转换的方法:
1.Min-max function
在所有点中找到位置的最大值和最小值,获得囊括所有点的bounding box;
2.Partial min-max function
选取部分点进行上述操作;
3.Moment-based function
求出所有点的均值和方差,通过另外两个全局学习的系数将均值和方差还原为box。
这些函数都是可微的,允许神经网络进行端到端训练。
Learning RepPoints
RepPoints的学习由目标定位和识别损失共同驱动,为了计算定位损失,首先通过上面的方法将RepPoints转换为bounding box,然后计算bounding box和真实框之间的损失。
3.RPDet:an Anchor Free Detector
我们设计了一个anchor-free目标检测器,使用RepPoints在各个阶段替代bounding box,RPDet基于可变性卷积,有两个识别阶段:
在这里插入图片描述
Center point based initial object representation
我们跟随YOLO和DenseBox,使用中心点作为目标的原始表示,这样做的一个重要优点就是其假设空间更紧密,因为anchor-based方法通常依赖大量的多尺度、多长宽比的anchor来保证在4维的bounding box假设空间中的密集覆盖。
然而,基于中心点的方法同样面临一个识别目标混淆的问题,这是由一张特征图中两个不同物体在同一位置造成的。在RPDet中,我们证明可以通过使用FPN来大大缓解这一问题。有以下两个原因:1.不同尺度的物体会被分配到不同的特征层,这解决了不同尺度物体有相同中心点的问题;2.FPN对小物体有高分辨率的特征图,这也减少了在特征图中有相同中心的情况。
Utilization of RepPoints
从中心点出发,第一批RepPoints通过回归中心点上的偏移量得到,这些RepPoints的学习通过以下两个目标驱动:1.对应box和真实框的距离损失;2.后续阶段的目标识别损失。第二批RepPoints代表了最终的定位结果,从第一批RepPoints调整得到,只通过距离损失来驱动,旨在产生更精确的定位。
Backbone and head architectures
在这里插入图片描述
Localization/class target assignment
网络有两个定位阶段:1.通过调整物体中心点来产生第一批RepPoints;2.通过调整第一批RepPoints来产生第二批RepPoints。不论哪个阶段,只有positive目标假设才在训练时定位目标,对于第一个定位阶段,特征图中的位置只有在以下情况下为positive:1.这张特征图在特征金字塔的level与真实目标的尺寸满足下面的关系;2.在这里插入图片描述
2.真实物体的中心点的投影在这个位置。对于第二个阶段,第一批RepPoints只有在对应bounding box和真实框的IoU大于0.5时为positive。
仅对第一批RepPoints进行分类,只有RepPoints为positive时进行分类,IoU小于0.4则认为是背景。

Evaluation

1.Ablation Study
RepPoints vs. bounding box
在这里插入图片描述
Supervision source for RepPoints learning
在这里插入图片描述
Anchor-free vs. anchor-based
在这里插入图片描述

Converting RepPoints to pseudo box
在这里插入图片描述
RepPoints act complementary to deformable RoI pooling
在这里插入图片描述
2.State-of-the-art Comparison
在这里插入图片描述

Conclusion

RPDet是一个二阶段的anchor-free网络,其主要思路就是利用RepPoints来替代anchor box,RepPoints在一个位置使用9个点来获取物体的极具辨识度的信息,RPDet也在anchor-free的同时,达到了具有竞争力的效果。

Notes

1.Deformable Convolution
可变形卷积,其基本思想是卷积核的采样方式可以通过学习得到,通过给传统卷积采样点添加offsets的方式来获取新的采样点。
在这里插入图片描述
2.CornerNet、ExtremeNet都有一定的限制,因为它们依赖手工设计的聚类方法和后处理过程来从检测到的点中来得到所有的目标。
3.计算定位损失时是否可以使用IoU loss。

  • 41
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值