论文解读 | FoveaBox: BeyondAnchor-basedObjectDetector

最新推荐文章于 2024-06-07 15:18:56 发布

颐水风华

最新推荐文章于 2024-06-07 15:18:56 发布

阅读量652

点赞数

分类专栏：期刊论文解读/翻译

期刊论文解读/翻译专栏收录该内容

19 篇文章 5 订阅

订阅专栏

https://blog.csdn.net/qq_18882399/article/details/89668635

在这里插入图片描述

一、研究动机

在两阶段的目标检测器中，通常利用预先产生的锚点框去拟合待检测的目标，其中包含对目标物的尺寸、长宽比、位置的拟合，然而锚点框的产生通常是离散变化的，因此锚点框的预设定对该类算法的效果有很大影响。FoveaBox为了解除这种影响，类比人类视觉系统感知世界的原理，认为人类先判定某个范围物体是什么，然后再对其边缘轮廓进行仔细判定，而不是去匹配任何事先在脑海里设定的模板矩形框，从而开辟了无需锚点框的检测方法：（1）预测类别相关的语义图来表征目标存在的概率。（2）产生类别无关的可能包含目标物体的矩形框。也正因为其不依靠于默认的锚点框，使得其对锚点框的分布更具鲁棒性。

二、研究方法

FoveaBox是个端到端的网络，由提取特征的基础网络和带有双任务的子网络构成，双任务包括了对基础网络输出的每个空间位置进行分类以及对应区域矩形框坐标的预测。整体流程如下图所示：
在这里插入图片描述
基于特征金字塔(FPN)的基网络
FoveaBox将特征金字塔每层特征上进行上述两个任务，最后将结果进行合并。

尺度的设定
首先明确最终目标是预测目标的轮廓，然而直接预测物体的轮廓难度过大，因为其尺度变化范围大，为了解决这个问题，FoveaBox将连续尺度划分成多个区间，并将它们和特征金字塔中的不同层对应。因此，特征金字塔中每层只负责预测某个特定尺度范围的矩形框，其中Sl表示第l层特征的基础大小，而给定的区间范围由一个系数η控制，衡量方式如下二式所示：
在这里插入图片描述，，
其中值得注意的是某个尺寸的物体可能会被映射到金字塔不同层次，这与之前FPN的概念有差异（某尺寸只被映射到金字塔特定某层）。
构建目标Fovea
Fovea其实就是依据ground truth 在输出的特征上制定的正样本区域。给定一个ground truth的坐标（X1,Y1,X2,Y2）,首先将这个矩形框映射到其对应的金字塔层，其缩放公式如下所示：
在这里插入图片描述
在其映射得到的坐标基础上添加缩放因子来制定正区域，也就是Fovea（中心点不变，缩放尺寸），如下：

σ1 是缩放因子，处于正区域范围内的单元会在训练的时候被标上相应类别标签。而另外一个缩放因子 σ2会被用在制定负区域，同样的计算方式（实验中采用的是σ1=0.3,σ2=0.4）。与此同时，需要注意此时的正样本只占了一小部分，为了克服正负样本不均衡，在分类任务中采用了Focal loss。
矩形框的预测
与Faster R-CNN 不同的，矩形框偏移量的回归并不是只针对中心点而言，而是Fovea中的每一个cell的坐标映射回原始图像之后和对应的ground truth的偏移量，计算方式如下：
在这里插入图片描述
其中，z为标准化因子使得输出空间映射到以1为中心的新空间。(x1,y1,x2,y2)表示ground truth坐标，(x,y)表示一个cell单元的坐标，(tx1,ty1,tx2,ty2)即为网络需要拟合的偏移量。Fovea依旧采用Smooth L1 loss作为矩形框回归预测的损失函数。
推理阶段
首先经过0.05的置信度阈值过滤掉一部分置信度过低的预测框，在每层选出置信度排名前1000的矩形框，接下来用0.5的非极大值抑制单独对每个类别进行操作，最后选出图片钟得分前100的矩形框。同时为了与基于锚点的目标检测方法进行对比，并没有在推理阶段采取软非极大值抑制和投票机制作为后处理的手段。

三、实验内容及分析

对比实验的选取对象的是带有稠密锚点框的RetinaNet，实验表明带锚点框的RetinaNet增加feature map每个单元对应的anchor并不会对实验的提升有帮助，并且证实了某个特定的位置只对应一个锚点的回归预测相对稠密锚点的方式有提升。这使得FoveaBox具有的优势是：输出空间缩小为原来的1/A，其中A是每个位置的锚点个数；比起模棱两可的优化目标已有一个框的方式更加直接；FoveaBox更灵活，无需提前设置锚点尺寸。具体结果如下两表所示：
在这里插入图片描述
为了进一步验证FoveaBox对矩形框尺寸分布更具鲁棒性，将验证集进行不同宽高比的拉伸，使得矩形框尺寸变化。实验结果表明FoveaBox对宽高比变化更具有鲁棒性。背后的原因：基于锚点的方法只对预测为正样本的建议框进行回归预测，并且是只针对一定的宽高比，所以其学习到的拟合能力较弱，面对极端变化的情况无法处理；而FoveaBox每个单元的矩形框只有一个且是任意比例，由此拟合能力更强，可以产生质量更高的区域建议，在宽高比极端的情况下依旧能处理。其实验结果如下图所示：
在这里插入图片描述
除此之外，FoveaBox主要是针对矩形框尺寸更任意的目标有明显的改善，与其他主流的一阶段和二阶段对比结果如下：