【读点论文】GIRAFFEDET: A HEAVY-NECK PARADIGM FOR OBJECT DETECTION，目标检测新范式，新的哲学思想改进BiFPN，更注重特征融合。还从数据集分析改进-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/131370478

GIRAFFEDET: A HEAVY-NECK PARADIGM FOR OBJECT DETECTION

ABSTRACT

在传统的目标检测框架中，从图像识别模型中继承骨干体提取深层潜在特征，然后颈部模块融合这些潜在特征来捕获不同尺度的信息。由于目标检测的分辨率远大于图像识别，因此主干的计算成本往往占总推理成本的大头。这种重型骨干设计范式主要是由于将图像识别模型转移到目标检测时的历史遗留问题，而不是针对目标检测的端到端优化设计。在这项工作中，我们表明这种范式确实会导致次优目标检测模型。为此，我们提出了一种新的重颈范式，GiraffeDet，一种用于高效目标检测的类似长颈鹿的网络。
GiraffeDet使用了一个非常轻的主干和一个非常深而大的颈部模块，可以同时在不同的空间尺度和不同层次的潜在语义之间进行密集的信息交换。这种设计范式允许检测器以相同的优先级处理高级语义信息和低级空间信息，即使在网络的早期阶段，使其在检测任务中更有效。对多个流行目标检测基准的数值评估表明，在广泛的资源限制范围内，GiraffeDet始终优于以前的SOTA模型。源代码可从 damo-cv/GiraffeDet (github.com) 获得。
论文地址：[2202.04256] GiraffeDet: A Heavy-Neck Paradigm for Object Detection (arxiv.org)
由阿里达摩院-AI Earth团队发表在 ICLR2022
ICLR2022系列解读之三：一个新的目标检测网络结构范式GiraffeDet - 知乎 (zhihu.com)

INTRODUCTION

在过去的几年中，基于深度学习的目标检测方法取得了显著的进展。尽管通过在结构、训练策略等方面的不同设计使目标检测网络变得更加强大，但检测所有大规模变化目标的元目标并没有改变。例如，COCO数据集中最小和最大的10%的对象实例的尺度分别为0.024和0.472，其缩放近20倍。这对使用最新方法处理如此大规模的变化提出了极大的挑战。为此，本文的目标是通过设计一个规模健壮的方法来解决这个问题。
为了缓解大规模变化带来的问题，一种直观的方法是在训练和测试中同时使用多尺度金字塔策略。【An analysis of scale invariance in object detection snip】的工作是在图像金字塔的相同尺度上训练和测试检测器，并选择性地将不同大小的对象实例的梯度作为图像尺度的函数进行反向传播。虽然这种方法提高了大多数现有的基于cnn的方法的检测性能，但它不是很实用，因为图像金字塔方法处理每个尺度的图像，这可能是计算昂贵的。此外，在使用预训练的分类主干时，分类数据集和检测数据集之间的目标尺度仍然是领域转移的另一个挑战。
或者，提出特征金字塔网络以较低的计算成本近似图像金字塔。现有的方法仍然依赖于优越的主干设计，但缺乏高层特征与低层特征之间的信息交换。例如，有些工作通过自底向上的路径增强，在较低层获得准确的定位信号，从而增强整个特征层次，但这种自底向上的路径设计可能缺乏高层语义信息与低层空间信息之间的交换。针对上述挑战，本课题提出以下两个问题:
- 图像分类任务的主干在检测模型中不可或缺吗?
- 什么类型的多尺度表示对检测任务有效?
这两个问题促使本文设计了一个包含两个子任务的新框架，即高效的特征降采样和充分的多尺度融合。首先，传统的用于规模敏感特征生成的主干计算成本高，并且存在 domain-shift 问题。另一种轻量级主干可以解决这些问题。其次，检测器在高级语义特征和低级空间特征之间学习到足够的融合信息是至关重要的。
基于上述动机，本文设计了一个类似长颈鹿的网络，命名为GiraffeDet，并有以下见解:
- (1)替代轻量级骨干可以在不增加计算成本的情况下提取多尺度特征变换。
- (2)充分的跨尺度连接，Queen-Fusion，就像国际象棋中的皇后棋子路径，处理不同层次、不同层次的特征融合。
- (3)根据设计的轻量级骨干和柔性FPN，本文提出了每个FLOPs级别的GiraffeDet家族。
值得注意的是，实验结果表明，本文的GiraffeDet家族在每个FLOPs级别上都达到了更高的精度和效率。
综上所述，本文工作的主要贡献如下:
- 据本文所知，提出了第一个轻量级替代主干网和灵活的FPN组合作为检测器。GiraffeDet系列由轻量级s2d链和广义fpn组成，展示了最先进的性能。
- 本文设计了轻量级的空深链(S2D-chain)来代替传统的基于cnn的主干网，并通过控制实验证明FPN在目标检测模式下比传统的主干网更重要。
- 在本文提出的广义fpn (GFPN)中，我们提出了一种新的蜂群融合作为本文的跨尺度连接方式，融合了前一层和当前层的级别特征，并且log2n跳层链路提供了更有效的信息传输，可以扩展到更深的网络。
基于轻骨架和重颈部的模式，GiraffeDet系列模型在大范围的flops性能权衡中表现良好。特别是，通过多尺度测试技术，长颈鹿det - d29在COCO数据集上实现了54.1%的mAP，优于其他SOTA方法。
提出了一个新的目标检测网络结构范式：GiraffeDet，它具有极轻量级计算量的backbone和大计算量的neck，使得网络更关注于高分辨率特征图中空间信息和低分辨率特征图中语义信息的信息交互。同时这个设计范式允许检测网络在网络早期阶段就以相同优先级处理高层语义信息和低层空间信息，使其在检测任务上更加有效。大量实验表明，在相同head及同量级Flops下，GiraffeDet能够取得比之前SOTA模型更优的结果。
目标检测任务面临的主要挑战在于尺度差异(Scale Variance)。下图给出了ImageNet和COCO数据集中的前景目标在scale的分布，横轴(Relative Scale)为前景目标尺度相对于图片尺度的相对scale，竖轴(CDF)为当前scale下的前景目标数量占整个数据集中所有前景目标数量的百分比。可以看到：
- COCO数据集中的前景目标scale跨度大：10%的小前景目标的scale(0.024)和10%的大前景目标的scale(0.472)相差足足20倍；
- COCO数据集和ImageNet数据集的前景目标scale分布存在偏移：COCO数据集中小目标占比更大，有一半的目标的relative scale<0.106；相比之下ImageNet数据集中前景目标scale分布比较均匀，一半的前景目标的relative scale<0.556；
- 如何解决scale variance的挑战，获得针对目标检测任务有效的多尺度的表征(multi-scale representation)；
- 目标检测网络的backbone基本都为scale-decreased的模型，使用ImageNet数据集进行Pretrain，这类设计的backbone是否在目标检测任务上不可或缺？

RELATED WORK

目标检测器通过学习尺度敏感特征来识别和定位目标是至关重要的。传统的解决大规模变分问题的方法主要是基于改进的卷积神经网络。基于cnn的目标检测器主要分为两级检测器和一级检测器。两级探测器预测区域建议，然后通过子网和一级检测器对其进行改进直接检测边界框，不需要提案生成步骤。在这项工作中，本文主要进行基于一级检测器方法的实验。
目前研究的主要方向是利用金字塔策略，包括图像金字塔和特征金字塔。图像金字塔策略用于通过缩放图像来检测实例。例如，SNIPER 提出了一种快速的多尺度训练方法，该方法对ground-truth目标周围的前景区域和背景区域进行不同尺度的训练。与图像金字塔方法不同，特征金字塔方法Lin等人融合了跨越不同尺度和不同语义信息层的金字塔表示。例如，PANet通过额外的自下而上的路径增强来增强特征金字塔网络顶部的特征层次结构。本文研究了特征金字塔策略，提出了一种充分的高层语义与低层空间信息融合方法。
一些研究人员开始着手设计新的架构来解决大规模变化问题，以取代检测任务中的“主干-颈-头”架构。Sun等人的工作将FishNet作为一种编码器-解码器架构，通过跳过连接来融合多尺度特征。SpineNet被设计为具有尺度排列的中间特征和跨尺度连接的主干，通过神经结构搜索在目标检测任务中学习。
本文的工作受到这些方法的启发，提出了一种轻量级的空间到深度主干网，而不是基于cnn的主干网。然而，本文的GiraffeDet仍然被设计为“主干-颈部-头部”架构。由于这种典型的体系结构在检测任务中得到了广泛的应用和证明。

THE GIRAFFEDET

尽管已经开展了大量的研究来研究有效的目标检测，但大规模的变化仍然是一个挑战。为了有效地实现充分的多尺度信息交换目标，本文提出了用于高效目标检测的giraffe(GiraffeDet)，“giraffe”由轻量级的空深链、广义fpn和预测网络组成。整个框架如下图所示，它在很大程度上遵循单阶段检测器范例。
- GiraffeDet概述，由三部分组成:1)body包含图像预处理和轻量级的s2d链;2)重型颈部精炼融合了高级语义和低级空间特征;3) Head预测存在对象的边界框和类标号。

LIGHTWEIGHT SPACE-TO-DEPTH CHAIN

大多数特征金字塔网络采用传统的基于cnn的网络作为主干来提取多尺度特征图，甚至学习信息交换。然而，随着CNN的发展，最近的主干变得越来越重，使用它们的计算成本很高。此外，最近应用的主干主要是在分类数据集上进行预训练，例如ResNet50在ImageNet上进行预训练，本文认为这些预训练的主干不适合用于检测任务，并且仍然存在 domain-shift 问题。FPN更强调高层次语义和低层次空间信息交换。因此，本文认为FPN在目标检测模型中比传统的主干更为重要。
受【Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network】【Frame-recurrent video superresolution】启发;本文提出空间到深度链(S2D链)作为本文的轻量级骨干，它包括两个3x3卷积网络和堆叠的S2D块。具体来说，3x3卷积用于初始下采样并引入更多的非线性变换。每个S2D块由一个S2D层和一个1x1卷积组成。S2D层通过对特征进行均匀采样，并以固定间隙对特征进行重组，将空间维度信息移动到深度维度，在不增加参数的情况下对特征进行下采样。然后使用1x1卷积提供通道池化来生成固定维度的特征映射。更多细节见附录A.1。
- 空间到深度转换的图示。S2D操作将激活从空间维度移动到通道维度
为了验证本文的假设，本文对相同FLOPs的多目标检测中不同的骨干和颈部计算比进行了对照实验。结果表明，在目标检测任务中，颈部比传统的主干更为重要。这些预训练骨干并不适用于检测任务，仍存在域漂移(domain-shift)问题。另外，FPN更多聚焦于高层语义信息与底层空域信息的交互。

GENERALIZED-FPN

在特征金字塔网络中，多尺度特征融合的目的是从骨干网络中提取不同分辨率的特征进行聚合。下图显示了特征金字塔网络设计的演变过程。
- 从3级到7级(P3 - P7)的特征金字塔网络演化设计。(a) FPN 引入了自顶向下的路径来融合多尺度特征;(b) PANet 在FPN之上增加了一个额外的自下而上的通路;© BiFPN引入了双向跨尺度通路;(d)本文的GFPN既包含融合后式路径，也包含跨层连接。虚线框表示每个FPN设计中的层。
- 解决Scale Variance这个问题，常用的两大种策略就是Image Pyramid或者Feature Pyramid。Image Pyramid在deep learning时代比较经典的有MTCNN, SNIP等；另外一大类方法是Feature Pyramid，也就是在neck上进行不同尺度特征的融合，代表工作主要有FPN、PANet、BiFPN，具体实现见上图。考虑到Image Pyramid带来的训练和测试时间成本，本文使用Feature Pyramid。
从Feature Pyramid的演进我们能看到，BiFPN设计了更多的不同层的连接以及跳跃连接来增加更多的特征融合。然而，单层的BiFPN能否达到充分的特征融合，输出multi-scale representation呢？为了回答这个问题，本文做了一个对比实验，控制整个网络在同一FLOPs量级下，调整backbone和neck的计算量比例，观察哪种设计在目标检测任务上更有效，结果见下图。
- 从上图可以看到，scratch 3x训练下，轻计算量backbone重计算量neck的网络(R18+BiFPN*9)能够取得比重计算量backbone轻计算量neck的网络(R101+BiFPN)更优的精度，因此将更多计算量放在特征融合上对于解决scale variance问题是有所帮助的。
- 然而BiFPN的简单堆叠并非最优的，每个BiFPN block都是彼此独立，而且堆叠过深可能存在梯度消失的风险。基于此，我们提出了GFPN的neck结构。
传统FPN引入了自顶向下的路径来融合从3级到7级的多尺度特征。考虑到单向信息流的限制，PANet增加了一个额外的自下而上的路径聚合网络，但计算成本更高。此外，BiFPN 去除只有一条输入边的节点，并在同一层次上从原始输入中添加额外的边。然而，本文观察到，以前的方法只关注特征融合，而缺乏内部块连接。因此，本文设计了一种新的路径融合，包括跨层和跨尺度连接，如上图(d)所示。
Skip-layer连接。与其他连接方法相比，跳跃连接在反向传播过程中特征层之间的距离较短。为了减少在如此重的“长颈鹿”颈下的梯度消失，本文在提出的GFPN中提出了dense-link和log2n-link两种特征链接方法，如下图所示：
- 跨层连接有两种链路模式:(a) dense-link:前几层的连接;(b) $log_2n$ -link:最多 $log_2l$ + 1层的连接。
- dense-link:受DenseNet的启发，对于k层的每个尺度特征 $P^l_k$ ，因此，第l层接收所有前层的特征映射:
- $P_k^l=Conv(Concat(P^0_k,...,P_k^{l-1})),(1)$
- 其中Concat()指的是在前面所有层中产生的特征映射的连接，Conv()表示3x3卷积。
- $log_2n$ -link:具体来说，在每一层k中，第l层接收最多 $log_2l + 1$ 个前一层的特征映射，这些输入层以2为基数，以指数方式远离深度i，表示为:
- $P^l_k=Conv(Concat(P_k^{l-2^n},...,P_k^{l-2^0},P_k^{l-2^0})),(2)$
- 当 $l−2^n≥0$ 时，Concat()和Conv()也分别表示串联和3x3卷积。与深度为l的dense-link相比， $log_2n-link$ 的时间复杂度仅为 $O(l·log_2l)$ ，而不是 $O(l^2)$ 。而且， $log_2n-link$ 只是将反向传播过程中层间的短距离从1增加到 $1+log_2l$ 。因此， $log_2n-link$ 可以扩展到更深的网络。
Cross-scale连接。根据本文的假设，本文所设计的充分信息交换既要包含跨层连接，也要包含跨尺度连接，以克服大尺度变化。以往的相邻层间特征连接工作只考虑同层特征或上一层特征。因此，本文提出了一种新的跨尺度融合，称为 Queen-fusion 融合，它同时考虑了上图(d)所示的相同级别和相邻级别的特征，就像在国际象棋中玩皇后一样。如下图(b)所示，P5中Queen-fusion的拼接由前一层P4下采样、前一层P6上采样、前一层P5和当前层P4组成。在这项工作中，分别采用双线性插值和最大池化作为本文的上采样和下采样函数。
- GFPN中PANet与本文的蜂群融合之间的跨尺度连接示意图。S和C表示求和和级联融合方式，0Pk表示下一层节点。
因此，在极端大尺度变化场景下，要求模型具有足够的高层和低层信息交换。基于本文的跨层和跨尺度连接机制，所提出的广义fpn可以像“giraffe neck”一样尽可能长地扩展。有了这样一个“heavy neck”和一个轻量级的骨干，本文的GiraffeDet可以平衡更高的精度和更好的效率之间的权衡。

GIRAFFEDET FAMILY

根据我们提出的s2d链和广义fpn，本文可以开发一系列不同的GiraffeDet缩放模型，这些模型可以克服各种资源限制。以前的工作以低效的方式扩展其检测器，如改变更大的骨干网络，如ResNeXt ，或堆叠FPN块，如NAS-FPN 。特别是，EfficientDet 开始使用复合系数 $\Phi$ 来共同放大主干的所有维度。与EfficientDet不同的是，本文只关注GFPN层的扩展，而不是整个框架，包括轻量级主干。具体来说，我们采用 $\Phi_d$ 和 $\Phi_d$ 两个系数来灵活地缩放GFPN的深度和宽度。
基于我们的GFPN和eS2D链，本文开发了GiraffeDet家族。大多数先前的工作都是通过改变更大的骨干网络来扩展基线检测器，因为他们的模型主要集中在单个或有限的缩放维度上。由于本文假设主干对目标检测任务不重要，GiffeDet家族只关注广义fpn的缩放。提出了两个乘法因子来控制GFPN的深度(层数)和宽度(通道数):
- $D_{gfpn}=\Phi_d,W_{gfpn}=256*\Phi_w,(3)$
- 根据上面的设置和方程3、我们开发了六种GiraffeDet架构，如下表所示。
- $\Phi_d$ 的缩放配置是表示GFPN深度(层数)的超参数。GFPN的宽度(通道数)可由式3根据 $\Phi_w$ 计算。
- GiraffeDet- d7,D11,D14,D16与基于resnet系列的模型具有相同级别的flop，将在下一节中比较GiraffeDet家族与SOTA模型的性能。请注意，GFPN的层与其他FPN设计不同，如下图所示。在我们提出的GFPN中，每层代表一个深度，而PANet和BiFPN的层包含两个深度。

EXPERIMENTS

在本节中，首先介绍了实现细节，并展示了我们在COCO数据集上的实验结果。然后将我们提出的GiraffeDet家族与其他最先进的方法进行比较，并提供深入的分析，以更好地理解我们的框架。

DATASET AND IMPLEMENTATION DETAILS

COCO数据集。在包含80个对象类别的COCO 2017检测数据集上对 GiraffeDet 进行评估。它包括用于训练(train)的115k图像，用于验证(val)的5k图像和用于测试(test - dev)的没有公开ground-truth的20k图像。所有方法的训练都在115k的训练图像上进行。本文报告消融研究的验证数据集的结果，以及来自评估服务器的测试开发数据集的结果，用于最先进的比较和DCN相关的比较。
为了公平比较，所有结果都是在mmdetection和标准coco风格评估方案下产生的。分别采用GFocalV2 和ATSS 作为头和锚的赋值器。根据【Rethinking imagenet pre-training】的工作，所有模型都是从头开始训练的，以减少预训练骨干对ImageNet的影响。输入图像的短边被调整为800，最大尺寸限制在1333以内。为了提高划痕训练的稳定性，本文对所有模型都采用了多尺度训练，包括:R2-101-DCN主干实验采用2倍图像预训练(p-2x)学习计划(24次，在16和22次衰减)，消融实验采用3倍划痕(s-3x)学习计划(36次，在28和33次衰减)，对比实验采用6倍划痕(s-6x)学习计划(72次，在65和71次衰减)。更多实现细节见附录B。

QUANTITATIVE EVALUATION ON COCO DATASET

本文将GiraffeDet与下表中最先进的方法进行比较。除非另有说明，否则采用单模型和单尺度设置，不增加测试时间。本文报告了test-dev (20k张没有公开ground-truth的图像)和val (5k张验证图像)的准确性。本文将具有相似flop的模型分组，并比较每组模型的准确性。值得注意的是，模型性能取决于网络架构和训练设置。本文引用了他们论文中的大多数模型。但为了公平比较，还从头开始复制了一些经过6次训练的RetinaNet， FCOS，HRNet， GFLV2 ，其中表示为†。
大规模的方差。从下图的性能可以看出，本文提出的GiraffeDet在每个像素尺度范围内的性能都是最好的，这说明本文提出的GFPN以及轻主干重颈范式都可以有效地解决大规模方差问题。在跨层和跨尺度连接下，高层语义信息和低层空间信息可以充分交换。在COCO数据集中，许多对象实例小于图像面积的1%，这使得检测器很难检测到。即使非常小的实例难以检测，我们的方法在0-32像素范围内仍然比RetinaNet的mAP性能高出5.7%，在80-144像素范围内优于相同的mAP。值得注意的是，在192-256像素范围内，本文提出的GiraffeDet比其他方法表现最好，这证明了我们的设计可以有效地学习尺度敏感特征。
- 在R50 FLOPs级别和6次scratch训练下，在五种不同模型中对所有尺度的对象实例(像素)进行mAP，包括HRNet、GFocalV2 、RetinaNet、FCOS和GiraffeDet。
- GiraffeDet在不同像素尺度范围均取得了最佳性能，这意味着：轻骨干+重Neck的设计可以更有效的解决大尺度变化问题。同时，受益于跳层与跨尺度连接，高层语义信息与底层空域信息可以进行更充分的信息交互。
与最先进方法的比较。下表显示，本文的GiraffeDet家族在相同FLOPs级别上的性能都优于以前的检测器，这表明本文的方法可以有效且高效地检测对象。
- 1)与基于resnet的方法相比，在低级FLOPs规模下，本文发现，即使整体性能没有明显提高太多，本文的方法在检测小对象和大对象的情况下都有显著的性能。结果表明，该方法在大规模变异数据集上具有较好的性能。
- 2)与基于resnext的方法相比，GiraffeDet在高级别FLOPs规模下的性能优于低级别FLOPs规模，这表明良好的FPN设计可能比重型骨干更重要。
- 3)与其他方法相比，所提出的GiraffeDet家族也具有SOTA性能，证明本文的设计在每个FLOPs级别上都具有更高的精度和效率。
- 此外，基于nas的方法在训练过程中消耗了大量的计算资源来覆盖搜索空间，因此本文不考虑将本文的方法与它们进行比较。最后，通过多尺度测试方案，本文的GiraffeDet实现了54.1%的mAP，特别是APS提高2.8%，APL提高2.3%，远高于APM的1.9%。

ABLATION STUDY

本文的GiraffeDet的成功可以归功于框架设计和每个组件的技术改进。为了分析GiraffeDet中各组分的影响，本文构建了消融研究，包括:
- 广义fpn中的连接分析;
- GFPN中的深度和宽度;
- 骨干讨论;
- 带DCN的GirrafeDet。更多消融研究见附录C。
连接分析。节点间路径的构建有多种选择，主要基于图论设计和人类经验设计。不同的连接表示特征映射上不同的信息交换。本文构建了消融研究模型，并进行了实验来研究本文提出的连接的影响。此外，为了在相同的FLOPs级别上进行公平的比较，本文将基本FPN, PANet和BiFPN进行多次堆叠，并使用相同的骨干和预测头。结果如下表所示。
- 连接分析的Ablation study。设计的“GFPN w/o skip”颈部模型没有任何跳过层连接，“GFPN-dense”颈部模型采用dense-link，“ $GFPN-log_2n$ ”颈部模型采用 $log_2n-link$ 。
Skip-layer连接。根据GiraffeDet的GFPN-dense和 $GFPN-log_2n$ 颈部的结果，本文观察到 $log_2n$ 连接的性能最好，而dense连接的性能只比没有任何跳过层连接的性能稍好。这说明 $log_2n$ 连接从早期节点到后期节点提供了更有效的信息传输，而密集连接可能提供冗余的信息传输。同时， $log_2n$ 连接可以在相同的FLOPs级别上提供更深的广义fpn。值得注意的是，两种广义fpn连接都比堆叠的BiFPN获得了更高的性能，这可以证明本文提出的GiraffeDet是更高效的。
Cross-scale连接。从上表可以看出，在信息流双向的情况下，堆叠PANet和堆叠BiFPN比其基本结构的精度更高，这说明了信息交换在FPN结构中的重要性。总体而言，本文的GiraffeDet模型可以获得更好的性能，这证明本文的Queen-fusion可以从之前的节点获得足够的高层和低层信息交换。特别是，即使没有跨层连接，本文的广义fpn仍然优于其他方法。
深度和宽度的效果。为了进一步公平地比较不同的“颈部”，本文在相同的FLOPs水平上对堆叠的基本FPN、PANet和BiFPN进行了两组实验比较，以分析本文提出的广义FPN的深度和宽度(通道数)的有效性。注意，如上文对比FPN图所示，本文的GFPN和FPN的每一层包含一个深度，而PANet和BiFPN的每一层包含两个深度。
如下表所示，观察到本文提出的GFPN在深度和宽度水平上都优于各种FPN，这也表明 $log_2n$ 连接可以有效地提供信息传输，设计的Queen-fusion可以充分提供信息交换。此外，提出的GFPN可以在更小的设计中实现更高的性能，深度为“11”，宽度为“221”，这表明本文的设计可以有效地实现多尺度检测。
- 深度与宽度分析的消融研究。所有模型都采用S2D-chain作为主干。“ $GFPN-log_2n$ ”表示GFPN颈部使用 $log_2n-link$ 。
骨干作用。下图显示了相同FLOPs级别下不同颈深和不同骨干网的性能。结果表明，S2D-chain和GFPN的组合优于其他主干网模型，这验证了本文的假设，即FPN更重要，传统主干网不会随着深度的增加而提高性能。特别是，本文可以观察到性能甚至随着骨干模型的增长而下降。本文认为这可能是因为在大型主干中域移位问题仍然较高，这也证明了本文的假设。
Results with DCN：然后，在本文的GiraffeDet中进行实验来分析可变形卷积网络(DCN)，该网络最近被广泛用于提高检测性能。如下表所示，本文观察到DCN可以显著提高我们的GiraffeDet的性能。
- 在giraffe - d11中应用的可变形卷积网络的val-2017结果。‡表示用于多gpu训练的同步批处理归一化GFPN。
特别是，从【GiraffeDet performance on COCO】表可以看出，使用DCN的GiraffeDet-D11比GiraffeDet-D16的性能更好。
- GiraffeDet在COCO上的性能-单模型单尺度的结果。test-dev是COCO测试集，val是验证集。†表示通过 6x scratch training重现结果，其他内容参考其论文。我们将具有相似flop的模型分组，并比较每组模型的准确性。MStest:多尺度测试，R: ResNet, X: ResNext, W: HRNet中的底层特征映射宽度(通道数)。GiraffeDet家族的头和锚分配器是GFocalV2和A TSS。
同样在可接受的推断时间下，本文观察到这种具有强DCN骨干的浅GFPN(微小)可以提高性能，并且随着GFPN深度的增加，性能得到了很大的提高，如下表所示。值得注意的是，作为GFPN的设计，本文的GiraffeDet更适合scratch训练，并且有了明显的改进。
- Res2Net-101-DCN (R2-101-DCN)骨干网与多个GFPN颈部的val-2017结果。GFPNtiny是指深度为8，宽度为122的GFPN(与FPN相同的FLOPs级别)。

CONCLUSION

在本文中，本文提出了一个新的重颈范式框架，GiraffeDet，一个类似长颈鹿的网络，以解决大规模变异的问题。特别是，GiraffeDet使用轻量级的空间到深度链作为主干，而提出的广义fpn作为重型颈部。应用空间-深度链轻量化提取多尺度图像特征，提出广义fpn学习足够的高层语义信息和低层空间信息交换。大量的实验结果表明，本文提出的长颈鹿det家族在检测大小目标实例方面具有更高的精度和效率。

ARCHITECTURE DETAILS

A.1 S2D CHAIN DESIGN

空间到深度链架构。“Conv”:卷积神经网络，“SiLU”:sigmoid Linear Units激活函数，“Space-to-depth”:S2D层，“Bx”表示S2D块的个数。
实验中使用的空间-深度链结构

A.2 GENERALIZED FPN DESIGN

堆叠式BiFPN与本文提出的GFPN-D11的架构比较。

MORE IMPLEMENTATION DETAILS

使用的超参数列表。

MORE ABLATION STUDIES

C.1FEATURE FUSION METHODS

融合式分析的消融研究包括三种模式:
- 1)“串联”模式:GiraffeDet采用串联融合模式;
- 2)“求和”模式:GiraffeDet采用求和融合风格;
- 3)“sum similar -FLOPs”模型:与“concatation”模型相同的FLOPs级别。
上图显示了使用基于求和的特征融合风格和基于串联的特征融合风格的性能。本文可以观察到，在相同的FLOPs水平下，基于串联的特征融合方式可以获得更好的性能。尽管基于求和的特征融合比基于连接的风格具有更少的FLOPs，但性能明显较低。本文认为牺牲mAP来获得更少的flop是不值得的。值得注意的是，在GFLOPs超过300后，“sum”模型的性能略有增长，这表明基于串联的特征融合风格可以再次更加准确和高效。

C.2INFERENCE TIME

由ResNet + FPN模型和S2D-chain + GFPN模型之间的地狱时间比较。橙色线面值为“S2D-chain + GFPN”，紫色线面值为“ResNet + FPN”。
“ResNet + FPN”模型与“S2D-chain + GFPN”模型在相同FLOPs水平上的推理时间比较
进行了推理时间实验，将本文的GiraffeDet与相同FLOPs水平的基本检测模型(ResNet-FPN-GFocalV2)进行了比较。从上表中，可以观察到本文的GiraffeDet在可接受的推理时间内取得了显著的改进。本文认为原因可能是大多数流行的gpu对基于resnet的骨干推理友好，而内存I/O对GFPN上基于连接的融合敏感，这将影响推理速度。值得注意的是，根据上图，随着FPS的增长，GiraffeDet的性能下降速度比标准模型慢。

C.3STANDARD BACKBONE

val-2017的结果，标准骨干与堆叠的BiFPN和提议的GFPN。
本文还在ResNet-18骨干网上进行了实验。根据上表，本文提出的具有标准骨干的GFPN可以随着GFPN增长的深度而增加。本文设计的GFPN在相同的FLOPs水平下也优于BiFPN。

D ADDITIONAL QUALITATIVE RESULTS

COCO数据集上不同目标检测方法的定性评价。
为了更好地说明不同方法的性能，在上图中提供了定性结果。总的来说，可以观察到所有方法都可以从每个图像中检测到对象实例。此外，与其他SOTA方法相比，GiraffeDet可以检测到更多的实例，特别是小对象实例，这证明了本文设计的FPN在大规模变化数据集中是有效的。