（三十六）论文阅读 | 目标检测之BorderDet

最新推荐文章于 2024-02-18 16:41:34 发布

zhangts20

最新推荐文章于 2024-02-18 16:41:34 发布

阅读量389

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Skies_/article/details/108780603

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

论文是 ${\rm ECCV\ 2020\ Oral}$ 的一篇 ${\rm Anchor}$ - ${\rm Free}$ 目标检测论文，论文的关注点是目标的边界特征，是属于基于关键点的检测方法。提出 ${\rm BorderAlign}$ 算子来提取目标的边界特征，并设计出一个新的检测模型 ${\rm BorderDet}$ 。实验结果为在基于 ${\rm FCOS}$ 上获得了约 ${\rm 2.8AP}$ 的提升，使用 ${\rm ResNeXt}$ - ${\rm 101}$ - ${\rm DCN}$ 的 ${\rm AP}$ 达到 ${\rm 50.3}$ 。论文原文源码

0. Abstract

密集型的目标检测方法依赖于滑动窗口等机制来预测目标，同时特征图上的网格点用于产生预测边界框，点特征具有很多优势但同时也无法获得边界信息。论文提出一种简单有效的算子 ${\rm BorderAlign}$ ，它基于边界的极值点来提取边界特征，并最终得到一个新的检测模型 ${\rm BorderDet}$ 。

论文贡献：（一）基于 ${\rm FCOS}$ 提出一种新的目标检测方法 ${\rm BorderDet}$ ；（二）提出 ${\rm BorderAlign}$ 算子用于高效地提取目标的边界特征；（三） ${\rm BorderAlign}$ 算子可以有效地与 ${\rm FCOS}$ 等模型结合；（四） ${\rm BorderDet}$ 在 ${\rm COCO}$ 数据集上达到了 ${\rm SOTA}$ 。

1. Introduction

基于滑动窗口的目标检测方法利用密集的网格产生预测的边界框，如 ${\rm SSD}$ 、 ${\rm RetinaNet}$ 、 ${\rm FCOS}$ 等使用基于点特征的方式来表征目标。这种单纯使用点特征的方式具有简单便捷的特点，因为不需要提取额外的特征。
在这里插入图片描述

图2：各特征提取方法

但是，如受到感受野大小的限制，仅使用点特征并不能包含目标的整体信息，同时也会由于缺少目标的边界信息而不利于模型进行精确地边界框回归。

许多工作聚焦于目标的特征表现形式，如 ${\rm GA}$ - ${\rm RPN}$ 、 ${\rm RepPoints}$ 、 ${\rm Cascade\ RPN}$ 、 ${\rm RoI\ Pooling}$ 、 ${\rm RoI\ Align}$ 等，这些方法能够提取比点特征更加丰富的信息。但同时，上述方式仍存在以下限制：（1）提取特征的过程会带来额外的计算，以及包含许多干扰的背景信息；（2）没有关注目标的边界特征。

基于上述问题，论文提出一种特征提取算子 ${\rm BorderAlign}$ ，使用提取的边界特征来增强点特征。它不同于以往基于整个边界框的方法， ${\rm BorderAlign}$ 仅关注目标的边界并且自适应地关注目标边界的表征特征。最后，基于 ${\rm BAM}$ 模块，论文提出了 ${\rm BorderDet}$ 。

2. Related Works

Sliding-Window Paradigm 滑动窗口机制广泛应用于目标检测中，如一阶段检测算法中的 ${\rm DenseBox}$ 、 ${\rm YOLO}$ 、 ${\rm SSD}$ 、 ${\rm RetinaNet}$ 、 ${\rm FCOS}$ 等；对于两阶段检测算法， ${\rm R}$ - ${\rm CNN}$ 系列等使用基于滑动窗口的 ${\rm RPN}$ 来产生初始建议框，然后使用 ${\rm RoIAlign}$ 等处理感兴趣区域。

Feature Representation of Object 典型的基于滑动窗口的目标检测方法使用点特征来表征目标。但是，点特征往往不能充分地反映目标类别和位置信息。近来， ${\rm Guided\ Anchor}$ 使用可变形卷积用于增强点特征； ${\rm Cascade\ RPN}$ 使用自适应卷积将特征图对齐到目标边界框； ${\rm RepPoints}$ 基于可变形卷积使用一组点用于表征目标外观。但是，上述方法中的特征图是基于整个目标的，因此其中难免包含许多背景等干扰信息。

Border Localization 有许多通过逐行逐列的方式来定位目标的边界，如 ${\rm LocNet}$ 、 ${\rm SABL}$ 等额外引入一个定位模块来增强 ${\rm RoI}$ 特征，以此在 ${\rm X}$ 方向和 ${\rm Y}$ 方向上逐步搜索以找到目标的边界。但是，这类方法严重依赖于特征图的分辨率。

3. Our Approach

3.1 Motivation

基于滑动窗口的目标检测方法通常通过特征图上密集的网格产生预测边界框，网格上的点用于产生对目标类别和位置的预测。但这种基于点特征的特征表现形式难以获得目标的边界特征，以及限制了目标检测器的性能。对于两阶段检测算法，目标通过区域特征表征。相比于点特征，基于区域的特征表现形式能够提供更加丰富的特征。
在这里插入图片描述

图3：各特征表现形式

下图展示了各特征表现形式的实验结果对比。首先，实验使用 ${\rm FCOS}$ 为基础网络来产生粗略定位；接下来，再次依照上图提取特征；然后基于不同特征来精修预测边界框。基于实验得到的结论有：（1）区域特征比点特征更加具有代表性；（2）边界特征在区域特征中扮演了重要角色；（3）如何有效地提取边界特征至关重要。

在这里插入图片描述

图4：各特征表现形式实验结果对比

因此，对于密集型目标检测算法的特征表示，基于点特征的表征方式并不能很好地反应目标的整体性。但是，直接基于整个边界框提取特征没有必要且存在冗余操作。同时，由于高效的边界特征提取方法能够有效地提高检测器的性能，论文提出基于边界特征来提高密集型目标检测算法的性能。

3.2 Border Align

基于上述实验及观察，边界特征对于整个目标检测过程至关重要，但是由于边界仅包含有限的前景信息，直接提取边界特征不能满足效率的要求。因此论文提出了一种新的特征提取算子， ${\rm BorderAlign}$ 用于有效地提取目标的边界特征。
在这里插入图片描述

图5：BorderDet

上图包含了 ${\rm BorderAlign}$ 的详细结构，基于 ${\rm R}$ - ${\rm FCN}$ 的思想， ${\rm BorderAlign}$ 基于输入得到通道数为 $5 C$ 的边界敏感特征图 $I$ 。其中， $4 C$ 通道数对应于四个边界的预测， $C$ 表示点特征。然后，将每个边界划分成 $N$ 个点，并使用最大池化增强点特征。 ${\rm BorderAlign}$ 算子能够基于边界极值点自适应地提取边界特征。。

值得注意的是， ${\rm BorderAlign}$ 算子采用基于通道的最大池化方式，四个边界的计算相对独立。假设输入特征图的顺序是点、左边界、上边界、有边界和下边界，输出特征图可由以下等式得到： $F_c(i,j)= \begin{cases} I_c(i,j)& \ 0\leq c< C\\ \max \limits_{0\leq k\leq N-1}(I_c(x_0,y_0+\frac{kh}{N}))& \ C\leq c<2C \\ \max \limits_{0\leq k\leq N-1}(I_c(x_0+\frac{kw}{N},y_0))& \ 2C\leq c<3C \\ \max \limits_{0\leq k\leq N-1}(I_c(x_1,y_0+\frac{kh}{N}))& \ 3C\leq c<4C \\ \max \limits_{0\leq k\leq N-1}(I_c(x_0+\frac{kw}{N},y_1))& \ 4C\leq c<5C \end{cases}\tag{1}$

等式左端表示特征图 $\mathcal F$ 上位置 $(i, j)$ 处第 $c$ 个通道的值， $x_0,y_0,x_1,y_1)$ 表示基于点 $(i, j)$ 预测的边界框， $w$ 和 $h$ 是边界框的宽和高。同时为了避免由于量化而带来的错误， $I_c$ 通过双线性插值计算得到。

在这里插入图片描述

图6：可视化

上图是对边界敏感图的可视化，由图可知在边界的极大值点处存在极大响应。

3.3 Network Architecture

BorderDet ${\rm BorderDet}$ 基于 ${\rm FCOS}$ 设计，由于在 ${\rm BorderAlign}$ 中提取边界时需要边界位置作为输入， ${\rm BorderDet}$ 设计使用两个阶段。首先产生对于类别和位置的粗略预测，然后将初次预测结果以及特征图送入 ${\rm BAM}$ 中，最后使用 ${\rm 1\times 1}$ 卷积用于预测边界分类得分和位置定位信息。

Border Alignment Module ${\rm BAM}$ 模块以通道数为 $C$ 的特征图为输入，然后使用一个 ${\rm 1\times 1}$ 的卷积改变特征图维数，并输出边界敏感图。边界敏感图由五个通道数为 $C$ 的特征图组成。

BorderRPN 论文提出的方法也可以继承到两阶段检测算法中，例如将 ${\rm BAM}$ 模块添加到 ${\rm RPN}$ 中得到了新的模块 ${\rm BorderRPN}$ ，其结构如下图：
在这里插入图片描述

图7：BorderRPN

3.4 Model Training and Inference

Target Assignment ${\rm BorderDet}$ 基于 ${\rm FCOS}$ 设计，首先产生粗略预测 $x_0,y_0,x_1,y_1)$ ；然后在第二阶段，根据 ${\rm IoU}$ 将预测信息分配到相应的真实框 $x_0^t,y_0^t,x_1^t,y_1^t)$ 。最后得到回归目标如下： $\delta_{x_0}=\frac{x_0^t-x_0}{w*\sigma}\ \ \delta_{y_0}=\frac{y_0^t-y_0}{h*\sigma}\ \ \delta_{x_1}=\frac{x_1^t-x_1}{w*\sigma}\ \ \delta_{y_1}=\frac{y_1^t-y_1}{h*\sigma}\ \tag{2}$

Loss Function $\mathcal L=\mathcal L_{cls}^C+\mathcal L_{reg}^C+\frac{1}{\mathcal N_{pos}}\sum_{x,y}\mathcal L_{cls}^B(\mathcal P^B,\mathcal C^*)+\mathcal L_{reg\{\mathcal C^*>0\}}^B(\Delta,\Delta^*)\tag{3}$

Inference ${\rm BorderDet}$ 基于特征图的每个像素产生分类得分和边界框预测，最后的分类得分通过粗略估计值乘以边界的分类得分值，边界框位置的获得情况同上。

4. Experiments

在这里插入图片描述

图8：BAM模块的消融实验

在这里插入图片描述

图9：不同的特征提取方法的对比

在这里插入图片描述

图10：与其他目标检测算法的对比

5. Conclusion

论文主要提出一个简单高效的目标检测网络模型 ${\rm BorderDet}$ ，它基于目标的边界特征来获得对目标类别和位置的预测。其中的关键部件是 ${\rm BorderAlign}$ ，它通过目标边界上的极值点来获得目标的边界特征。

前面介绍过 ${\rm Center}$ - ${\rm Triplets}$ 是针对 ${\rm CornerNet}$ 没有充分利用域内信息而作的改动，通过额外引入一个中心关键点的检测来提高生成边界框的质量。可见，在这类基于关键点或是 ${\rm Anchor}$ - ${\rm Free}$ 的目标检测方法中，由于没有先验框的设置，我们必须找到最佳的回归目标。即在这类算法中，我们必须充分利用标注框信息，不管是域内还是目标边界亦或是目标的上下文信息等。