BorderDet

最新推荐文章于 2024-04-19 09:52:55 发布

dekiang

最新推荐文章于 2024-04-19 09:52:55 发布

阅读量354

点赞数

分类专栏： Object Detection

本文链接：https://blog.csdn.net/weixin_41560402/article/details/108214034

版权

Object Detection 专栏收录该内容

55 篇文章 17 订阅

订阅专栏

1. Motivation

论文研究的问题是采用何种特征进行分类和预测会比较好。

在这里插入图片描述

single point feature：单阶段目标检测器通常以feature map上的每个点为特征，并利用这些单点特征直接给出目标的类别概率和边界框，比如YOLO，RetinaNet，FCOS等。虽然单点特征使用简单，但由于单点特征一般很难包含有高效的边界特征，从而会影响高精度定位。论文中提到This point-based feature representation is hard to contain the effective border feature and it may limit the localization ability of the object detectors。
region features：这是两阶段目标检测器所用到的区域特征，比如RPN中，采用 $3\times3$ 的滑窗进行特征提取，这时便用到了9个特征点的特征。在得到region proposal后又用RoI pooling或RoIAlign提取出RoI特征，region proposal一般会覆盖整个bounding box，那么相比于单点特征，区域特征就会包含丰富的特征，如此多的特征可能会造成特征冗余，甚至造成特征不够强。比如，区域特征包含了图1(a)运动员的特征，也包含了背景特征（如边界框左上角区域的运动场），这就造成了特征冗余，这些冗余的特征可能还会影响模型的鲁棒性。
border features：来自物体边界框的边界特征
border-middle features：来自物体边界框中心点的特征

作者以FCOS为目标检测器，利用以上不同特征做了如下对比实验，其中， $F_{point}$ 表示使用FCOS做第一次预测，其它实验则是利用不同的特征进行第二次预测，即使用“粗预测+精预测”模式，为什么要采用这种两次级联的预测方式呢？因为后续的 $F_{region}$ ， $F_{border}$ ， $F_{middle}$ 均需要有物体的边界框来提取对应的特征，使用一次预测则无法利用到物体边界框。
在这里插入图片描述
注： $N$ 表示所利用的特征点数， $N$ 在一定程度上表示了算法的复杂度，实验中令 $N = 5$ 。

只使用baseline做一次预测的结果是 $AP=38.6\%$
$F_{point}^{'}$ 表示使用单点特征进行第二次预测， $A P$ 提高了 $0.3\%$ ，表明两次级联的预测是有用的。
$F_{region}$ ：区域特征比单点特征好，相比于单点特征，区域特征包含更多丰富的特征。
$F_{border}$ ：即使减小了内部特征，只使用边界特征， $A P$ 只下降 $0.3\%$
$F_{middle}$ ：使用边界中心点特征效果最好，虽然 $A P$ 与 $F_{region}$ 一样，但使用了非常少的特征点。

上述实验结果表明，在单点特征的基础上添加少量边界特征是非常有用的，边界特征包含了丰富的边界信息，从而提高定位精度，那么究竟要使用何种边界特征呢？作者发现，使用边界极限点（extreme point of the border）点的特征是比较好的。如下图的(a)Image所示，橙色的点分别是图中的运动员在4个方向上（上下左右）的最远点，这些点分别确定了边界框的上下左右4条边，于是被称为边界极限点。直观地来讲，分类问题通常关注的是目标的关键区域，而定位问题则应关注目标的边界区域。显然，如果我们能找到目标的边界极限点，并利用这些极限点的特征，我们可以实现更加精准的定位。
在这里插入图片描述

因此，论文提出了BorderAlign，用来提取物体边界极限点的特征，进而设计了一个全新的检测框架“BorderDet”。它可以很好地利用边界信息，实现更强大的分类与更精准的定位效果。

2. BorderDet

2.1 overview

在这里插入图片描述

BorderDet是一种级联预测的检测器；
使用FCOS进行第一次预测，得到类别概率和预测边界框；
利用预测出的边界框和BorderAlign来提取边界极限点特征；
最后利用边界极限点特征进行第二次预测，得到类别概率和预测边界框；
结合前后两次得到的类别概率和边界框，得到最终的检测结果；

2.2 Border Align

受R-FCN中position-sensitive RoI pooling的启发，Border Align提出一种类似的池化方法：border-sensitive border pooling方法来提取边界极限点特征。
在这里插入图片描述

Borber Align以大小为 $H\times W\times 5C$ 的边界敏感特征图 $I$ （border-sensitive feature maps）和首次预测出的边界框 $B$ 为输入。其中边界敏感特征图 $I$ 将通道数分成5个部分，每个部分的通道数为 $C$ ，从左至右来看，每个部分分别表示single point(origin)，left border，top border，bottom border，right border。
C is set to 256 for the classification branch and to 128 for the regression branch.
假设特征图中位置 $(i, j)$ 所预测出的边界框为 $x_0,y_0,x_1,y_1)$ ，经过Border Ailgn后的输出特征图 $F$ 上第 $c$ 个通道上第 $(i, j)$ 个特征点为
$F_c(i,j)=\left\{ \begin{array}{lcl} I_c(i,j) & & {0\leq c< C}\\ \max \limits_{0\leq k\leq N-1}I_c(x_0,y_0+kh/N) & & {C\leq c< 2C}\\ \max \limits_{0\leq k\leq N-1}I_c(x_0+kw/N,y_0) & & {2C\leq c< 3C}\\ \max \limits_{0\leq k\leq N-1}I_c(x_0+kw/N,y_1) & & {3C\leq c< 4C}\\ \max \limits_{0\leq k\leq N-1}I_c(x1,y_0+kh/N) & & {4C\leq c< 5C}\\ \end{array} \right.$ 其中 $w$ 和 $h$ 分别表示边界框的宽和高， $N$ 表示在边界上等间距取 $N$ 个点，论文中令 $N = 10$ ， $I_c(i,j)$ 表示边界敏感特征图 $I$ 上第 $c$ 个通道第 $(i, j)$ 个特征点。
对于single point所对应的 $C$ 个通道的feature maps，不做任何处理。而4个边界对应的feature maps则按边界划分成 $N$ 个点后，对这 $N$ 个点进行max pooling，在做pooling时是按每个通道数来进行的。
对于非整数的坐标，则以距离其最近的4个特征点做双线性插值。
下图展示对 Borber Align的输出特征图 $F$ 进行可视化的结果。single point关注了物体的整体信息，而4个边界极限点则更加关注响应的边界信息。

2.2 Border Alignment Module (BAM)

在这里插入图片描述

作用是提取边界极限点特征，并将其与单点特征做融合，最后使用 $1\times1$ 卷积进行第二次检测

3. 实验

（1）BAM的有效性

对比前三行的 $AP_{90}$ ，表明边界极限点特征能明显地提高严格标准下的定位精度，实现高精度定位，所以，让定位任务关注合适的边界信息能提高定位精度。

注：Cls-BAM表示对分类分支使用BAM，Reg-BAM表示对回归分支使用BAM。

（2）边界划分点数 $N$
在这里插入图片描述
注： $N = 0$ 表示只使用单点特征进行第二次迭代

（3）边界特征聚合策略（Border Feature Aggregation Strategy）

channel-wise表示上述所讲的边界特征聚合方法，即是按照不同通道数并沿着同一边界线做pooling，此时通道数是独立的，输出特征图大小为 $H\times W\times 5C$ 。
border-wise的聚合方法分为2部：首先对于某一边界线，按照不同边界点（共 $N$ 个）并沿着通道方向进行pooling，得到 $N$ 个点，然后对着N个点做max pooling，选择最大的点作为边界极限点，这样，输出特征图大小为 $H\times W\times 5$
实验证明了channel-wise的方法更好。个人觉得，这是因为特征图的每个通道包含了该点的不同特征，而channel-wise方法独立地选择出了这些特征，最大程度保留了边界点信息，后面如何将这些散特征聚合在一起，则交给 $1\times1$ 卷积来做；而border-wise则认为地选择出响应最大的散特征，这是一种启发式的特征聚合方法，而且可能会丢失重要特征。

（4）最终结果
在这里插入图片描述

dekiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BorderDet

目录1. 摘要2. Motivation2. 整体框架这是ECCV2020的一篇Oral论文，由旷世研究院提出。论文：BorderDet: Border Feature for Dense Object Detection代码： https://github.com/MegviiBaseDetection/BorderDet论文作者马宇宸的知乎：ECCV2020 Oral |BorderDet用边界特征做检测1. 摘要在目标检测领域，检测器一般会通过滑窗的方式来预测图像网格上的物体，并且还会
复制链接

扫一扫

专栏目录