（九）论文阅读 | 目标检测之GA

最新推荐文章于 2022-10-07 21:39:27 发布

zhangts20

最新推荐文章于 2022-10-07 21:39:27 发布

阅读量508

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Skies_/article/details/105011051

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

论文是发表在 ${\rm CVPR\ 2019}$ 上的一篇关于目标检测的论文。论文的主题是 ${\rm Guided\ Anchoring}$ ，即采用某种方法指导生成 ${\rm Anchor}$ 。论文原文源码

0. Abstract

当前 ${\rm Anchor}$ - ${\rm Based}$ 的目标检测方法会使用预先设定大小和宽高比的 ${\rm Anchor}$ ，然后将大量 ${\rm Anchor}$ 密集地铺在图像上，找出最适合的 ${\rm Anchor}$ 进行分类和回归。论文提出一种高效的方法用以指导 ${\rm Anchor}$ 的生成，同时预测目标的中心区域即大小和宽高比。此外，使用特征自适应模块缓解特征不平衡的问题。该方法可以集成到 ${\rm Anchor}$ - ${\rm Based}$ 的目标检测方法中。实验结果为在 ${\rm MS\ COCO}$ 数据集上， ${\rm Fast\ R}$ - ${\rm CNN}$ 、 ${\rm Faster\ R}$ - ${\rm CNN}$ 和 ${\rm RetinaNet}$ 的 ${\rm mAP}$ 分别提高 ${\rm 2.2\%}$ 、 ${\rm 2.7\%}$ 和 ${\rm 1.2\%}$ 。

本文贡献：（一）提出一种新的 ${\rm Anchor}$ 生成机制；（二）将 ${\rm Anchor}$ 的铺设公式化，即避免在图像上产生大量密集的、无用的 ${\rm Anchor}$ ；（三）基于特征与 ${\rm Anchor}$ 对齐的重要性，设计特征适配模块细化特征；（四）针对两阶段目标检测方法提出高效的区域生成方法。

1. Introduction

当前 ${\rm Anchor}$ - ${\rm Based}$ 的目标检测方法使用 ${\rm Anchor}$ 作为分类和回归的基础，而设计 ${\rm Anchor}$ 具有两个准则：对齐和一致。对齐是指 ${\rm Anchor}$ 中心与特征图像素对齐，即通常将特征图中的每个像素作为 ${\rm Anchor}$ 的中心。一致是指 ${\rm Anchor}$ 的大小和宽高比要与感受野一致，即 ${\rm Anchor}$ 的设计要符合数据集中目标的大小和形状。滑动窗口是一种常用的方法，通常在特征图上的每个像素位置铺设 $k$ 个预先指定大小和宽高比的 ${\rm Anchor}$ 。

作者指出，上述方法可能存在以下问题：（1）由于 ${\rm Anchor}$ 的大小和形状依赖预先设定，设计不当将会影响模型的速度和精度；（2）大量仅含背景的 ${\rm Anchor}$ 会增加计算量。论文提出一种高效的方法以指导 ${\rm Anchor}$ 生成。受到如下启发：目标并非均匀地分布在图像上，目标的大小和宽高比与图像内容、位置、几何场景密切相关。该方法分为两步：首先确定可能存在目标的子区域，然后确定其形状。如果将 ${\rm Anchor}$ 的大小和宽高比当做变量，则对于特征图上的每个像素，对应 ${\rm Anchor}$ 需要自适应确定。论文提出 ${\rm GA}$ - ${\rm RPN}$ 方法（ ${\rm Guided\ Anchoring}$ + ${\rm Region\ Proposal\ Network}$ ）解决上述问题。

2. Related Work

相关工作部分首先介绍了滑动窗口的使用，主要涉及到 ${\rm Faster\ R}$ - ${\rm CNN}$ 、 ${\rm SSD}$ 、 ${\rm DenseBox}$ 、 ${\rm RetinaNet}$ 、 ${\rm YOLOv2}$ 等。然后是论文方法同现存方法的对比：（1）后者通常需要大量密集的 ${\rm Anchor}$ ，论文方法舍弃了滑动窗口机制，提出一种高效的方法产生稀疏的 ${\rm Anchor}$ ；（2）级联式的检测方法采用多阶段逐步完善边界框，但通常会带来额外的参数和推理速度的下降；（3） ${\rm Anchor}$ - ${\rm Free}$ 方法难以胜任复杂的场景；（4） ${\rm Single}$ - ${\rm Shot}$ 方法使用多次回归和分类逐步确定 ${\rm Anchor}$ 。

3. Guided Anchoring

${\rm Guided\ Anchoring}$ 的流程如下：一个 ${\rm Anchor}$ 可由 $(x, y, w, h)$ 确定。现假设某个目标来自图像 $I$ ，则其形状和位置可由如下确定： $p(x,y,w,h|I)=p(x,y|I)p(w,h|x,y,I)\tag{3.1}$

上述等式即是条件概率等式的简单变形，但其可以反映的是： $p (x, y ∣ I)$ 表明目标可能只存在于图像中特定位置； $p (w, h ∣ x, y, I)$ 表明目标的大小和宽高比与其位置密切相关。

基于上述结论，论文提出一种 ${\rm Anchor}$ 生成模块，如图：
在这里插入图片描述

图2：方法框架

如图所示，左边是一个特征金字塔。每个金字塔层后接一个 ${\rm Guided\ Anchoring}$ 。以顶层特征图 $F_I$ 为例说明，上面分支 $N_L$ 产生一个标识目标位置的概率图，下面分支 $N_S$ 预测基于密保位置的形状。然后会产生一系列的 ${\rm Anchor}$ ，通过阈值保留可能的结果。由于图像中的目标可能大小形状各异，采用一个特征自适应模块基于 ${\rm Anchor}$ 的形状自适应特征。详情步骤见后面部分。

3.1 Anchor Location Prediction

如图 $2$ 所示。首先， $N_L$ 分支产生一个同输入特征图 $F_I$ 等大的概率图 $p(·|F_I)$ ，概率图上每个像素点 $p(i,j|F_I)$ 对应于原图的位置为 $((i + 1 / 2) s, (j + 1 / 2) s)$ ， $s$ 为步长。概率图上的值表明目标中心在此处的概率。得到概率图的具体过程为：使用 $1 \times 1$ 卷积作用于特征图 $F_I$ ，然后通过一个 ${\rm sigmoid}$ 函数将值归一化，由此得到各个位置的概率值。接着，通过阈值得到存在目标的可能位置。这个操作可以过滤掉大约 $90\%$ 的低召回率区域。由于不需要考虑概率低的区域，后接掩码卷积。

掩码卷积请参考这篇文章里的 ${\rm Region\ Convolution}$ 。首先针对输入特征图上的每个像素值对应的概率值设置标志，决定其是否参与下面的卷积。即在特征图上添加一个掩膜，目标区域为 $1$ 、其他区域为 $0$ ，则卷积操作只在 ${\rm RoI}$ 上进行。

3.2 Anchor Shape Prediction

$3.1$ 部分得到目标的大致位置后，现在开始预测可能的大小和宽高比。 $N_S$ 分支针对特征图 $F_I$ 上的每个位置预测合适的 $(w, h)$ 。由于目标大小和尺寸的多样性，这里不直接预测 $w$ 和 $h$ 值： $w=σ·s·e^{dw},\ \ h=σ·s·e^{dh}\tag{3.2}$

$N_S$ 分支预测值 $d w$ 和 $d h$ ， $s$ 为步长， $σ = 8$ ，这里将参数空间归一化到 $[- 1, 1]$ 。类似的处理在 ${\rm R}$ - ${\rm CNN}$ 和 ${\rm YOLO}$ 系列中经常使用，目的是将坐标的预测归一化，使其值的变化限制在某个范围，有利于网络的训练过程以及后续的边界框回归。

得到位置预测的具体过程为：使用 $1 \times 1$ 卷积作用于特征图 $F_I$ ，得到一个两通道的特征图，分别为值 $d w$ 和 $d h$ 。然后应用公式 $(3.2)$ 得到对应的宽和高。

3.3 Anchor-Guided Feature Adaptation

在特征图 $F_I$ 上，不同位置的目标大小和宽高比变化可能很大。直觉上，较大的 ${\rm anchor}$ 对应于较大的区域；较小的 ${\rm anchor}$ 对应于较小的区域。基于此，作者提出一个特征自适应模块，根据 ${\rm anchor}$ 的形状转化特征： ${\rm f}_i^{'}=N_T({\rm f}_i,w_i,h_i)\tag{3.3}$

这里的 ${\rm f}_i$ 表示特征中的第 $i$ 个位置， $w_i,h_i)$ 为对应 ${\rm anchor}$ 的宽和高， $N_T$ 表示一个 $3 \times 3$ 的可变卷积，最后得到相应位置的输出 ${\rm f}_i^{'}$ 。可变卷积来自于一篇 ${\rm CVPR\ 2017}$ 的文章，如下图：

在这里插入图片描述

图3：DCN

在 ${\rm input\ feature\ map}$ 后接两个分支。上面分支通过卷积产生一个和输入特征图大小相同、通道数为 $2 N$ 的偏移（对应 $N$ 个 $x$ 、 $y$ 方向上的偏移）。将偏移作用于输入特征图上的卷积核后，卷积核变为输出特征图上的蓝框。 ${\rm DCN}$ 的提出致力于解决图像中目标的多尺度变化问题。

3.4 Training

损失函数定义如下： $L=λ_1L_{loc}+λ_2L{shape}+L_{cls}+L_{reg}\tag{3.4}$

除了目标检测中常用的分类损失 $L_{cls}$ 和定位损失 $L_{reg}$ 外，还添加了位置预测损失 $L_{loc}$ 和形状预测损失 $L_{shape}$ 。 $L_{cls}$ 常用的形式是 ${\rm Focal\ Loss}$ ， $L_{reg}$ 常用的形式是 ${\rm IoU\ Loss}$ ，而 $L_{loc}$ 和 $L_{shape}$ 的具体形式见源码部分。

Anchor location targets，为了训练 $N_L$ 分支，针对每幅图像使用一个二值标签图（ $1$ 表示有效位置、 $0$ 反之），这里使用标注框指导标签图的生成。对于标注框 $x_g,y_g,w_g,h_g)$ ，其映射到对应特征图上为 $x_g^{'},y_g^{'},w_g^{'},h_g^{'})$ ，令 $R (x, y, w, h)$ 表示中心在 $(x, y)$ 、宽高为 $(w, h)$ 的矩形框。而 ${\rm anchor}$ 要尽可能放置到邻近标注目标中心的区域，以获得更大的 ${\rm IoU}$ 。这里定义 $3$ 中类型的区域：

（1） $CR=R(x_g^{'},y_g^{'},σ_1w^{'},σ_1h^{'})$ 表示框的中心区域， $C R$ 内的像素为正样本；

（2） $IR=R(x_g^{'},y_g^{'},σ_2w^{'},σ_2h^{'})$ 是一个不包含 $C R$ 的更大的区域（ ${σ_2＞σ_1}$ ）， $I R$ 内的像素为忽略；

（3）除去 $C R$ 和 $I R$ 区域内的像素为负样本。

基于 ${\rm DenseBox}$ 的思想，每层特征图仅对应于特定大小范围的 ${\rm anchor}$ ，这个问题在FCOS中也有相应的讨论。所以，论文将 $C R$ 分配到对应的特征层，而 $I R$ 被分配到相邻层的对应区域。这样， $C R$ 能够抑制 $I R$ 、 $I R$ 能够抑制 $O R$ 。（我的理解是，将相邻层对应区域置为 $I R$ 后可以改善 ${\rm anchor}$ 分配的模糊性问题）。由于 $C R$ 往往对应特征图上的一个较小区域，而 $O R$ 区域相对较大， $N_L$ 分支的损失函数采用 ${\rm Focal\ Loss}$ 形式。

在这里插入图片描述

图4：3种区域

Anchor shape targets，这里分两步确定 ${\rm anchor}$ 的形状：将 ${\rm anchor}$ 分配到标注框和预测宽高。常用做法是通过 ${\rm IoU}$ 将 ${\rm anchor}$ 分配到标注框。由于这里 $w$ 和 $h$ 的值没有确定，作者将 ${\rm IoU}$ 定义为一个变量： ${\rm vIoU}(a{\rm _{wh},gt})={\underset {w>0，h>0}{\operatorname {max} }}{\rm IoU}_{normal}(a_{wh},{\rm gt})\tag{3.5}$

这里可变 ${\rm anchor}$ 为 $a_{\rm {wh}}=\{(x_0,y_0,w,h)|w>0,h>0\}$ ，标注框为 ${\rm gt}=(x_g,y_g,w_g,h_g)$ 。然后对于位置 $x_0,y_0)$ ，选择一系列 ${\rm anchor}$ 常用的 $w$ 和 $h$ 值，遍历所有 $(w, h)$ ，将与标注框的最大 ${\rm IoU}$ 作为 ${\rm vIoU}$ 值。实验中采用 $9$ 组 $(w, h)$ 值同 ${\rm RetinaNet}$ 设置，宽高比分别为 $KaTeX parse error: Undefined control sequence: \< at position 1: \̲<̲font size=3>{1:…$ 、尺寸分别为该特征层对应大小的 ${2^0,2^{1/3},2^{2/3}\}$ 。

$N_S$ 分支的损失函数采用 $L_1$ 形式： $L_{shape}=L_1\left(1-{\rm min}\left(\frac{w}{w_g},\frac{w_g}{w}\right)\right)+L_1\left(1-{\rm min}\left(\frac{h}{h_g},\frac{h_g}{h}\right)\right)\tag{3.6}$

3.5 The Use of High-Quality Proposals

${\rm RPN}$ 和 ${\rm GA}$ - ${\rm RPN}$ 的对比，在采用不同 ${\rm IoU}$ 的情况下得到的建议区域数量。由图可知， ${\rm GA}$ - ${\rm RPN}$ 能够得到更多高质量的建议框。

在这里插入图片描述

图5：RPN和GA-RPN

4. Experiments

在这里插入图片描述

图6：各区域建议方法的对比

图中 ${\rm AR}$ 表示平均召回率（ ${\rm Average\ Recall}$ ）, ${\rm AR_{100}}$ 表示建议区域为 $100$ 个情况下的平均召回率。

在这里插入图片描述

图7：RPN和GA-RPN的可视化对比

这部分实验主要对比模型的设计，消融实验 $1$ 结果：

在这里插入图片描述

图8：消融实验1结果对比

图 $8$ 显示了论文中所提出的各部分模块对最终结果的影响，其中 ${\rm L.}$ 为位置预测、 ${\rm S.}$ 为形状预测、 ${\rm F.A.}$ 为特征自适应模块。这部分实验主要对比 ${\rm anchor}$ 位置的选取（即阈值），消融实验 $2$ 结果：

在这里插入图片描述

图9：消融实验2结果对比

这部分实验主要对比 ${\rm anchor}$ 形状的选取，消融实验 $3$ 结果：

在这里插入图片描述

图10：消融实验3结果对比

图中 ${\rm GT}$ 表示标注框， ${\rm GA}$ 表示 ${\rm Guided\ Anchoring}$ ， ${\rm SW}$ 表示滑动窗口。由图可知， ${\rm GA}$ 得到的分布同 ${\rm GT}$ 更接近。

5. Conclusion

论文提出一种 ${\rm anchor}$ 生成机制，通过 ${\rm anchor}$ 的位置引导生成 ${\rm anchor}$ 的形状。此外，使用一个特征自适应模块保证训练的稳定性。实验结果为在当前的区域建议方法中表现 ${\rm SOTA}$ 。

生成建议区域是两阶段目标检测算法中包含的阶段，论文实验结果也证明了 ${\rm GA+RPN+FPN}$ 的形式能够显著提升基于 ${\rm RPN}$ 两阶段目标检测算法的性能。论文中利用 ${\rm anchor}$ 的位置引导生成 ${\rm anchor}$ 的形状的思想很巧妙，同时配合 ${\rm DCN}$ 模块的使用也能够保证多尺度检测的问题。

参考

Wang J, Chen K, Yang S, et al. Region proposal by guided anchoring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2965-2974.

完