ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics

Wanderer001

于 2022-05-11 11:59:03 发布

阅读量596

点赞数

分类专栏：计算机视觉文章标签： ar redis 深度学习

本文链接：https://blog.csdn.net/weixin_36670529/article/details/105519441

版权

计算机视觉专栏收录该内容

219 篇文章 87 订阅

订阅专栏

参考 ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics - 云+社区 - 腾讯云

摘要

卷积神经网络(CNNs)引领我们在目标检测研究方面取得了重大进展。为了检测各种大小的目标，目标探测器通常利用多尺度特征图的层次结构，即特征金字塔，这很容易通过CNN体系结构获得。然而，这些对象探测器的性能是有限的，因为底层特征图经历较少的卷积层，缺乏捕获小对象特征所需的语义信息。为了解决这些问题，人们提出了各种方法来增加用于目标检测的底层特征的深度。虽然大多数方法是基于通过具有横向连接的自上而下路径生成附加特征，但我们的方法使用双向长短期记忆(biLSTM)直接融合多尺度特征图，努力利用门通功能和参数共享生成深度融合语义。由此产生的语义信息通过渠道注意模型在每个尺度上重新分配到个体金字塔特征。我们将语义结合和注意再分配特征网络(ScarfNet)与基线目标检测器(即Faster R-CNN、单次发射多盒检测器(SSD)和视网膜网)集成在一起。实验结果表明，我们的方法比基线检测器有显著的性能提升，并且在PASCAL VOC和COCO检测基准中优于其他多尺度融合方法。

1、介绍

目标检测是指判断图像中是否存在目标实例，并返回对目标位置和类别的估计。历史上，物体检测一直是最具挑战性的计算机视觉问题之一。最近，深度学习在目标检测技术方面取得了前所未有的进展。卷积神经网络(CNNs)可以通过层叠卷积操作和非线性函数生成抽象特征映射的层次结构。利用CNN作为骨干网络，物体探测器可以根据抽象的特征图有效推断出包围盒的位置和实例的类别。迄今为止，人们提出了各种各样的目标检测网络结构。基于CNN的目标检测器大致分为两类：两阶段检测器和单阶段检测器。两级检测器使用两个独立的子网来检测目标；2)目标分类器网络，用于识别目标的类别并细化包围框。著名的两级探测器包括R-CNN， Fast R-CNN， Faster R-CNN和Mask R-CNN。单级检测器可直接从特征图中一次性估计边界盒和对象类，包括单级多框检测器(SSD)、YOLO、YOLO v2和RetinaNet。

目标检测的最新进展是基于CNN生成包含强语义线索的抽象特征的能力。卷积层越深，得到的特性映射的抽象级别就越高。因此，在CNN管道的末端产生的特征(称为顶级特征)包含丰富的语义，但缺乏空间分辨率，而放置在输入层的特征(称为底层特征)缺乏语义信息，但有详细的空间信息。这种多尺度特征的层次构成了所谓的特征金字塔，在许多目标探测器(如SSD、MS-CNN、RetinaNet)中用于检测不同尺度的目标。金字塔结构设计使用这种特性为目标检测是图1所示(一个)。请注意,大对象的属性往往是捕捉到的顶级特性小物体的体积小而浅底层工人的特征所代表的大尺寸。

特征金字塔法的一个局限性是用于目标检测的多尺度特征图之间的语义信息不一致。底层特性还不够深入，无法显示对象及其周围环境中的高级语义。这导致了检测小目标时的精度损失。为了解决这一问题，人们提出了几种方法，试图缩小不同尺度下金字塔特征之间的语义差距。一个值得注意的方向是，通过生成具有潜在连接的自顶向下路径中的高度语义特征，为底层特征提供上下文信息。如图1 (c)所示，在自下而上网络获得的顶层金字塔特征的基础上，随着深度和分辨率的增加，生成附加特征。为了避免空间信息丢失，采用横向连接的方法将底层特征与高层语义特征结合起来。包括DSSD、FPN和StairNet在内的各种目标探测器遵循这一原理，据报道在检测精度方面有显著提高。

我们的工作是由观察到的，当前体系结构生成自顶向下特性的能力可能不够大，不足以为所有规模生成强大的语义。因此，我们提出了一种深度融合多尺度特征的增强目标检测体系结构。本文提出的特征金字塔方法，即语义结合和注意再分配特征网络(ScarfNet)，利用递归神经网络将多尺度特征图结合起来，然后将融合后的语义重新分配到每一层，生成新的多尺度特征图。ScarfNet的结构如图2 (d)所示。首先，使用双向长短期记忆(biLSTM)模型结合多尺度的金字塔特征。虽然biLSTM被广泛用于从序列数据中提取时间特征，但它可以有效地结合多尺度特征中的语义。我们的猜想是，与卷积融合方法相比，由于参数共享，biLSTM需要的权值明显减少，唯一相关的语义信息是通过biLSTM的门控函数选择性聚合的。融合后的特征图通过通道注意模型分布，生成为每个金字塔尺度量身定制的高度语义特征。最终得到的多尺度特征图用于目标检测。注意，我们的框架可以很容易地应用于各种基于特征金字塔的CNN架构，这些架构需要很强的语义信息。

在实验中，我们将ScarfNet与包括Faster R-CNN、SSD和RetinaNet的基线检测器集成在一起。在PASCAL VOC和MS COCO数据集上进行的评价表明，我们的方法在检测精度方面比基线检测器和其他竞争检测器有显著的提高。我们的代码将公开。本文的贡献总结如下：

我们引入了一种新的深度架构，用于弥合多尺度特征图之间的语义鸿沟。提出的ScarfNet结合biLSTM和信道注意模型生成语义深度融合和重分布的多尺度特征图。
文献中首次使用biLSTM结合多尺度特征，为特征金字塔引入强语义。biLSTM模型可以在不同的金字塔尺度上利用循环连接产生深度融合的语义信息。此外，ScarfNet受益于biLSTM模型中固有的选择性信息门控机制。由于参数共享，ScarfNet的开销很小。此外，ScarfNet易于训练，而且是端到端可培训的。

2、相关工作

在这一节中，我们回顾了基本的目标检测器和几个现有的特征金字塔方法，用来减少尺度之间的语义差距。

2.1、基于CNN的目标检测器

最近，CNN在物体检测方面带来了一个数量级的性能提升。到目前为止，已经提出了各种基于CNN的目标检测器。目前的物体检测器可分为两类：两阶段检测器和单阶段检测器。两级检测器分两步检测目标；根据区域的客观性寻找区域建议，并对检测到的区域建议进行分类和有界回归。R-CNN[7]是第一个基于CNN的检测器，采用传统的选择搜索来寻找区域建议，并将CNN应用于每个区域建议中的图像patch。Fast R-CNN和Faster R-CNN通过利用感兴趣区域(ROI)池来使用全图像特征映射，并用区域建议网络(RPN)代替选择性搜索，减少了RCNN的计算时间。单阶段检测器直接根据特征图进行分类和箱形回归。这些检测器计算目标类别的置信度和候选方框的回归结果，同时对特征图进行空间扫描。知名的单级探测器包括SSD、YOLO和YOLOv2。最近，RetinaNet以ResNet为骨干，采用各种最新的训练技巧，取得了最先进的性能。有关当代物体探测器的全面回顾，请参阅。

2.2、使用多尺度特征的目标检测器

包括SSD和RetinaNet在内的几种目标检测器依靠层次特征金字塔来检测不同大小的目标(图1 (a))。使用由CNN直接产生的多尺度特征的一个问题是，由于输入所经过的层的深度不同，它们之间的语义信息存在差距。由于对底层特征的抽象程度相对较低，对小目标的检测精度往往受到限制。图1 (b)、(c)和(d)描述了为克服这一问题而提出的策略。图1 (b)描述了将多尺度特征结合成单一高分辨率、强语义特征图的策略。HyperNet和ION通过适当调整特征图的大小聚合层次特征，提高了RPN的性能。图1(c)显示了通过横向连接的自上而下路径生成高度语义特征的策略。注意，语义信息是通过自上而下的连接生成的，而详细的空间信息是通过横向连接提供的。基于这种结构的检测器包括DSSD、StairNet、TDM、FPN和RefineDet。DSSD和StairNet使用基于反卷积层的自顶向下连接作为SSD基线。TDM采用为更快的R-CNN[20]的RPN指定的自顶向下结构。FPN采用了简化的结构，分别对自顶向下和横向连接使用了2x上采样和1x1卷积。RefineDet对自顶向下的连接使用两步级联回归。

3、提出的检测器

在本节中，我们将介绍所提议的ScarfNet体系结构的细节。

3.1、存在的特征金字塔方法

基于特征金字塔的目标检测器基于 (>1) 不同金字塔层次的特征图，检测不同大小的物体。如图1 (a)所示，基线检测器在第个金字塔级使用特征图 X_l ：

$X_l = B_l(X_{l-1})\\ \ Detection Oup = D_l(X_l)$

其中 l = n-k+1,...,n 。其中 $X_{1:n-k}(=[X_1,X_2,...,X_{n-k}])$ 是骨干网络产生的特征图， $X_{n-k+1:n}$ 是从后来的卷积层由底向上得到。 $B_l(\cdot)$ 代表了第l个卷积层执行的操作。 $D_l(\cdot)$ 代表检测子网络，通常采用一个单一的 $3 \times 3$ 的卷积层来产生分类和框回归的输出。由于从金字塔层输入的深度不同，较浅的底层特征缺乏语义信息。

为了减少不同金字塔层之间的语义差距，有一些工作提出了使用横向连接的自顶向下结构，如图(c)所示。该结构通过横向连接将高层语义从顶层传播到底层，提高了分辨率，同时保持了空间上的高分辨率。第l层的特征图 X'_l 产生的方式为

其中 l = n-k+1,...,n ， $L_l(\cdot)$ 是第l层的横向连接， $T_l(\cdot)$ 是第l的自顶向下的连接。操作符 $\oplus$ 代表两个特征图的组合，例如通道连接和相加。不同的方法仅仅采用了不同的 $T_l(\cdot)$ 和 $L_l(\cdot)$ （例如、DSSD、StairNet、TDM、FPN和RefineDet）。对特征金字塔这些方法比较抽象，他们依然有一些限制。因为自顶向下的连接以没有方向的方式传播语义，这些语义在各层上是不均匀分布的。结果是金字塔特征层之间的语义分隔依然存在。其次，这种特征的单向处理能力有限，无法生成丰富的上下文信息，从而提高所有尺度上的语义水平。为了解决这个问题我们开发了一个使用biLSTM在所有特征层之间以单向横向连接产生深度融合的语义。接下来的章节将展示我们提出方法的细节。

3.2、ScarfNet：整个结构

ScarfNet用两步来解决语义信息的不符：(1)、使用biLSTM来组合打散的语义信息。(2)、使用逐通道注意模块将融合的特征重新分布到每个特征层。整个结构如图2所示。将第k个金字塔特征 $X_{n-k+1:n}$ 作为输入，ScarfNet产生新的第l个特征图 X'_l 为：

其中 l = n-k+1,...,n ，如式(6)所示ScarfNet由两部分组成：语义重组网络(ScNet)和注意重分布网络(ArNet)：

ScNet通过biLSTM来融合金字塔特征 $X_{n-k+1:n}$ ，并且用融合的语义产生输出特征。
ArNet收集从biLSTM的输出特征，并且用逐通道注意力来产生高质量的语义多尺度特征，连接到原始的特征金子塔上。最终，结果特征图用检测子网络 $D_l(\cdot)$ 单独处理来产生最终的检测结果。

3、语义组合网络(ScNet)

通过ScNet产生的特征图 $X_{n-k+1:n}^{f}$ 为：

X^f_l 是第l层的输出特征图，细节如下图所示，描述了ScNet的细节。ScNet使用biLSTM在不同的金字塔之间均匀的融合打散的特征。biLSTM通过门函数，在多尺度层上选择融合语义信息。ScNet由匹配模块和biLSTM组成。匹配模块首先对金字塔特征 $X_{n-k+1:n}$ 的尺寸进行变换，使他们的尺寸相同。然后使用 $1 \times 1$ 的卷积层来调整通道维度。结果，匹配模块产生通道数和尺寸都相同的特征图。尺寸变换操作通过双线性插值来完成。biLSTM和参考文献[23]相同。基于全局池化的结果，对输入连接和门参数的计算使用卷积层，来显著的节省计算。

特别地，biLSTM的操作可以简化为：

其中 $\bigcirc$ 代表哈达玛积，biLSTM的状态在前向和后向都更新。上式为前向更新，后向更新的表达式类似。

4、注意力重分布网络(ArNet)

ArNet产生高层的语义特征图，连接到原始的金字塔特征图 X_l 上，表达式为：

操作符 $\oplus$ 代表逐通道连接。ArNet的具体结构下图所示。ArNet连接biLSTM的输出 $X_{n-k+1:n}^{f}$ ，对他们应用逐通道注意力机制。注意力机制的权重通过构建 $1 \times 1$ 的向量获得，具体方式为使用全局平均池化，并且将将它传递到两个全连接层，最后再接一个sigmoid函数。注意，这些逐通道注意力模块允许选择将语义传播到金字塔的每层。一旦注意力的权重使用了，匹配模块将特征图的结果进行下采样，并且应用 $1 \times 1$ 的卷积来匹配通道维数，利用这些原始的金字塔特征。最终，输出的匹配模块连接到原始的特征图上，来产生高的语义特征。

4、实验

通过将我们的检测器与其他多尺度检测方法进行比较，并进行广泛的性能分析以理解我们的体系结构的行为，我们评估了所提出的ScarfNet模型的性能。

4.1、实验设置

基线目标探测器采用ScarfNet，包括Faster R-CNN、SSD和RetinaNet。在Faster R-CNN和RetinaNet的情况下，我们用ScarfNet的特征生成代替了原来的FPN部分。我们将我们的方法与基线、Faster RCNN、SSD和RetinaNet，以及其他竞争算法，包括ION、R-FCN、DSSD和StairNet进行了比较。在PASCAL VOC 2007、PASCAL VOC 2012和MS COCO，3个被广泛应用的目标检测基准数据集上，测量了mAP的平均精度(mAP)，以%为单位。

4.2、网络配置

ScarfNet的优点是没有太多的超参数需要确定。注意，特征图的空间尺寸很容易根据基线探测器的空间尺寸来确定。中间特征图的通道尺寸固定在ScNet和ArNet中两个匹配块之间的管道上。因此，我们只需要确定这个通道维度。根据我们的实证结果，我们设置通道维数为256。

4.3、性能评估

4.3.1、PASCAL VOC结果

使用PASCAL VOC 2007数据集进行训练：使用VOC 2007训练集和VOC 2012训练集对考虑中的目标检测器进行训练，并使用VOC 2007测试集进行评估。当ScarfNet与SSD基线相结合时，我们对模型进行了超过120k次迭代(约240个epoch)的训练。我们对第一个80k迭代使用 $10^{-3}$ 的学习率，对下一个20k迭代使用 $10^{-4}$ 的学习率，对最后的20k迭代使用 $10^{-5}$ 的学习率。迷你批次大小设置为32，随机梯度下降(SGD)更新的动量设置为0:9，权重衰减设置为0.0005。当我们的方法与RetinaNet基线相结合时，我们对前60k迭代使用 $5 \times 10^{-3}$ 的学习率，对下一个20k迭代使用5 $5 \times 10^{-4}$ 的学习率，对最后10k迭代使用 $5 \times 10^{-5}$ 的学习率。除了0:0001的重量衰减外，其他参数设置相同。

在PASCAL VOC 2012数据集上进行训练：使用VOC 2007训练集、VOC 2007测试集和VOC 2012训练集对目标检测器进行训练，并使用VOC 2012测试集进行评价。当我们的模型应用于SSD基线时，使用与VOC 2007相同的训练参数，共运行了20万次迭代。注意，我们对第一个120k迭代使用了 $10^{-3}$ 的学习率，对下一个40k迭代使用了 $10^{-4}$ 的学习率，对其余的学习率为 $10^{-5}$ 。

性能比较：表1显示了在PASCAL VOC 2007和2012测试集上比较评估的目标探测器的mAP性能。对于PASCAL 2007和2012的情况，ScarfNet生成的语义特征都比基线检测器提供了显著的性能提升。以PASCAL VOC 2007为例，该方法在SSD300、SSD512和Faster R-CNN基线上的mAP增益分别为1.9%、1.8%和1.2%。提出的方法也比视网膜网基线高出0.5%。由于RetinaNet基线采用了基于FPN的自顶向下结构，我们得出结论，我们的方法生成的特征优于FPN生成的特征。我们的目标检测器的性能也优于其他竞争算法，包括StairNet，DSSD， ION， R-FCN。尽管PASCAL VOC 2012数据集的检测精度与PASCAL VOC 2017数据集相比略有下降，但PASCAL VOC 2007数据集的检测结果趋势不变。注意，所提出的检测器在SSD300和SSD500基线上分别保持了1.4%和1.3% mAP的性能增益。

4.3.2、COCO上的结果

训练：

比较下的目标检测器使用MS COCO trainval35k split(从训练集中合并80k图像和从40k图像中随机提取的35k子集)进行训练。评估使用MS COCO测试开发程序进行。为了训练提出的基于RetinaNet络的结构，我们在前60k迭代中使用10−2的学习率，在接下来的20k迭代中使用 $10^{-3}$ 的学习率，在最后20k迭代中使用 $10^{-5}$ 的学习率。迷你批大小设置为16，动量设置为0.9，重量衰减设置为0.0001。

性能对比：

表2给出了在MS COCO数据集上测试的算法的检测精度。实验在各种基线检测器和特征金字塔模块上进行。提出的Scarf SSD513和Scarf RetinaNet在基线上取得了显著的性能增益。我们的方法比Faster R-CNN基线高出0.9% AP。还需要注意的是，围巾SSD513比DSSD513获得了1.3%的性能增益，Scarf RetinaNet比RetinaNet基线提供了0.8%的性能增益。

4.4、性能分析

4.4.1、性能分析

biLSTM的好处：

在多尺度特征融合方面，biLSTM和信道注意方法的有效性值得研究。表3显示了当我们将双lstm和通道注意逐个添加到基线时，我们方法的性能是如何提高的。我们看到，biLSTM比基线提供了1.6%的AP增益，biLSTM和通道注意组合增加了1.9%的AP增益。表3还对1x1卷积层、自顶向下结构、单向LSTM等不同融合策略进行了比较。我们的biLSTM取得了较好的成绩;因此，biLSTM的参数共享、门控单元和双边处理有效地控制了高层信息，减少了层次特征之间微妙的语义差距。

网络参数搜索：

我们需要确定中间特征图的通道尺寸。我们还应该确定，在ScarfNet输出与原始特征金字塔相结合时，是向元素相加还是向通道连接更好。表4显示了我们检测器在不同通道维度组合(64、128、256、512和1024)和特征组合策略(元素相加和信道连接)下的性能评估。由表4可知，将512个通道尺寸与元素相加相结合的检测精度最好。然而，使用512信道大大增加了整个网络的计算复杂度;因此，我们选择了256个具有通道级联的通道维数。

4.4.2、特征可视化

我们通过特征可视化研究了ScarfNet的有效性。图5中最大的原始金字塔特征图 $X_{1}$ 与来自ScarfNet的语义特征图 $X_{1}^{\prime}$ 的对比。为了得到热图，我们选取了空间域平均激活度最高的通道。由于原始特征图 $X_{1}$ 缺乏语义线索，往往无法在物体上正常激活。相反，特征图 $X_{1}^{\prime}$ 对目标所占据的整个区域具有较强的激活作用，这将导致整体检测性能的提高。

5、结论

在本研究中，我们开发了一个深度架构，生成具有强语义的多尺度特征，以可靠地检测不同大小的目标。我们的ScarfNet方法将基线检测器产生的金字塔特征转化为均匀的抽象特征。ScarfNet利用biLSTM融合金字塔特征，并将语义分布到每个多尺度特征中。通过使用PASCAL VOC和MS COCO数据集进行实验，验证了所提出的ScarfNet方法较基线检测器显著提高了检测性能。我们的对象检测器在PASCAL VOC和COCO基准测试中达到了最先进的性能。

Wanderer001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics

1、已经存在的特征金字塔方法为了检测到变化尺寸的目标，基于特征金字塔的检测器，在不同特征层之间，基于在k特征图上的决策，例如下图(a)所示，基线检测器使用在特征层上的特征图。其中。其中是骨干网络产生的特征图，是从后来的卷积层由底向上得到。代...
复制链接

扫一扫