小目标到大目标一网打尽！阿里提出首个轻骨干重Neck的轻量级目标检测器GiraffeDet...

最新推荐文章于 2024-06-29 00:01:26 发布

Tom Hardy

最新推荐文章于 2024-06-29 00:01:26 发布

阅读量940

点赞数

文章标签：网络算法计算机视觉机器学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2Nzg4NjA5OQ==&mid=2247508189&idx=1&sn=60afdbb9d1ffd9b43fbaff6f580a3943&chksm=eafaeba1dd8d62b7408f6c54b93d5b8aad0bef496492d7c3ec895bfaf1c0336caf2aeb9c72ff&scene=126&&sessionid=0

版权

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨happy

编辑丨极市平台

本文是阿里巴巴在目标检测领域的工作(已被ICLR2022接收)，提出了一种新颖的类“长颈鹿”的GiraffeDet架构，它采用了轻骨干、重Neck的架构设计范式。所提GiraffeDet在COCO数据集上取得了比常规CNN骨干更优异的性能，取得了54.1%mAP指标，具有更优异的处理目标大尺度变化问题的能力。

论文链接：https://arxiv.org/abs/2202.04256

ICLR2022：

https://openreview.net/forum?id=cBu4ElJfneV

Abstract

常规目标检测方案往往采用重骨干+轻Neck模式，即骨干部分的计算量占据主导地位(这种设计源自历史遗留问题，即骨干网络往往需要从图像识别模型进行迁移，而非针对目标检测进行端到端设计)。这种检测架构设计会导致次优性能。

为此，我们提出了一种新的重Neck架构GiraffeDet(类长颈鹿网络)用于高效目标检测，GiraffeDet采用超轻量骨干与非常深且大的Neck模块。这种设计范式允许检测器即使在网络早期阶段也能够以相同的优先级处理高层语义信息与底层空间信息，使其对检测而言更为高效。多主流检测基准数据集上的结果表明：相比其他SOTA模型，GiraffeDet在不同资源约束下均能取得一致的性能优势。

贡献

本文提出了首个轻骨干+灵活FPN组合的检测器，所提GiraffeDet包含一个轻量S2D-chain骨干与一个Generalized-FPN并取得了SOTA性能；
不同常规骨干，本文设计了一种轻量型S2D-chain骨干，同时通过可控实验证实：相比常规骨干，FPN对于检测模型更为重要；
提出GFPN(Generalized-FPN)以跨尺度连接方式对前一层与当前层的特征进行融合，跳层连接提供了更有效的信息传输，同时可以扩展为更深的网络；
在不同FLOPs-性能均衡下，所提GiraffeDet均取得了优异性能。当搭配多尺度测试时，GiraffeDet-D29在COCO数据集上取得了54.1%mAP指标，超越了其他SOTA方案。

出发点

本文的出发点有两个：

图像分类任务的骨干是检测模型所不可或缺的吗？
什么样类型的多尺度表达对于检测任务更为有效？

Method

为达成更高效、更充分的多尺度信息交换，本文提出了GiraffeDet用于高效目标检测，giraffe包含轻量space-to-depth chain、Generalized-FPN以及预测网络，整体架构如上图所示，它延续了一阶段检测设计范式。

Lightweight Space-to-Depth Chain

大多特征金字塔网络以常规CNN骨干提取的多尺度特征为基础上进行特征融合。然而，随着CNN的发展，骨干网络变得越来越大，计算量越来越高。此外，这些骨干网网络采用ImageNet进行预训练。我们认为：这些预训练骨干并不是哟用于检测任务，仍存在域漂移(domain-shift)问题。另外，FPN更多聚焦于高层语义信息与底层空域信息的交互。因此，我们认为：相比常规骨干，FPN在检测模型中的作用更为重要。

受启发于PiexelShuffle与FRVSR，我们提出了Space-to-Depth Chain(S2D Chain)作为轻量骨干网络，它包含两个 卷积与堆叠S2D-chain模块。具体来说，卷积用于初始的下采样并引入更多非线性变换；每个S2D-chain模块包含一个S2D层与一个 卷积。S2D将更多的空域信息移动到深度维度，同时可以起到无参下采样作用。然后采用卷积提供通道相关池化以生成固定维度特征。下图给出了本文基于S2D模块所设计的轻量型骨干架构示意图。

Generalized-FPN

FPN旨在对CNN骨干网络提取的不同分辨率的多尺度特征进行融合。上图给出了FPN的进化，从最初的FPN到PANet再到BiFPN。我们注意到：这些FPN架构仅聚焦于特征融合，缺少了块内连接。因此，我们设计了一种新的路径融合：包含跳层与跨尺度连接，见上图d。

Skip-layer Connection 相比其他连接方法，在反向传播过程中跳过连接具有更短的距离。为避免GiraffeDet的重Neck设计的梯度消失问题，我们提出了一种特征连接方案：稠密连接与连接，见上图。

Dense-link：受启发于DenseNet，对于k级的每个尺度特征,第l层接收前面所有层面的特征，描述如下：

-link：具体来说，在k级，第l层最多接收层前置特征，可描述如下：

相比稠密连接，所提 -link的复杂度为，而非。此外，在反向传播过程中， -link仅将最短距离从1提升到了。因此， -link可以扩展到更深的网络。

Cross-scale Connection 基于所提假设，我们设计的充分信息交互应当不仅包含跳层连接，同时还包含跨尺连接以克服大尺度变化。因此，我们提出一种新的跨尺度融合Queen-fusion，见上图b。注：我们采用双线性插值与最大值池化进行特征上采样与下采样。

在极限大尺度变化场景下，它需要模型能充分进行高层与底层信息交互。基于跳层与跨尺度连接机制，所提GFPN能够尽可能扩展，类似于Giraffe Neck。基于这种的重Neck与轻骨干设计，所提GiraffeDet可以更好的平衡高精度与高效率。

GiraffeDet Family

按照所提S2D-chain与GFPN，我们开发了一类GiraffeDet模型以满足不同资源约束。已有方案通过对骨干进行缩放调整模型大小，而GiraffeDet则聚焦于调整Neck部分。具体来说，我们采用两个系数调整GFPN的深度与宽度：

上表给出了本文所设计的不同大小的GiraffeDet缩放系数信息，它们具有与ResNet系列模型相当的FLOPs。下图还给出了S2D chain-BiFPN-D29以及S2D-chain GFPN-D11的架构示意图(这里的Neck部分的箭头连接好像有点问题)。

Experiments

在具体实现方面，GiraffeDet采用了GFocalV2作为检测头，采用ATSS进行标签分配。为增强从头开始训练的稳定性，我们采用了多尺度训练。相关训练超参见上表。

上表给出了所提GiraffeDet与其他方案的性能对比，从中可以看到：

相比已有检测器，在相同FLOPs水平，GiraffeDet取得了更优的性能，这意味着：所提方案可以更有效、更高效地检测目标；
相比ResNet方案，尽管整体性能提升不明显，但小目标与大目标检测提升非常明显，这意味着：所提方案可以更好的处理大尺度变化问题；
相比ResNeXt方案，GiraffeDet具有更高的性能，这意味着：好的FPN设计比骨干更重要；
相比其他方案，所提GiraffeDet同样SOTA性能，进一步证实：所提方案具有更高精度、更高效率；
搭配多尺度测试时，所提GiraffeDet取得了54.1%mAP，小尺度AP提升2.8%，大尺度AP提升2.3%，均高于中尺度的1.9%提升。

从上图可以看到：所提GiraffeDet在不同像素尺度范围均取得了最佳性能，这意味着：轻骨干+重Neck的设计可以更有效的解决大尺度变化问题。同时，受益于跳层与跨尺度拦截，高层语义信息与底层空域信息可以进行更充分的信息交互。在0-32尺度下，GiraffeDet比RetinaNet指标高5.7%mAP；在80-144尺度下，GiraffeDet同样高出5.7%mAP；在192-256尺度下，所提GiraffeDet仍超越了其他检测方案。这说明：GiraffeDet可以更有效的学习尺度敏感特征。

Ablation Study

GiraffeDet的成功源自架构的设计以及每个模块的技术升级。为更好的分析GiraffeDet每个模块的作用，我们进行了一系列消融实验。

Connection Analysis 上表对比了Neck部分不同连接方式的性能对比，从中可以看到：

相比基础版本PANet与BiFPN，堆叠版本可以进一步提升其性能，这说明了FPN架构中信息交换的重要性；
相比BiFPN，GFPN-dense与GFPN-log2n均表现出了更高的性能提升，证实了所提GiraffeDet更高效；甚至移除跳层连接，所提GFPN仍具有更优性能；
相比GFPN-dense，GFPN-log2n方式具有更优的性能。这说明：log2n连接方式可以提供更有效的信息传递，同时它可以在同FLOPs水平下达成更深的GFPN设计；
总而言之，所提GiraffeDet可以取得更优的性能，证实了Queen-fusion可以获得更充分的高层与底层信息交互。

上表从Neck的深度与宽度角度进行了对比分析，从中可以看到：所提GFPN在不同深度与宽度水平均优于FPN，这说明：log2n连接与Queen-fusion可以更有效的提供信息传递与交互。

在同FLOPs水平下，上图比较了不同Neck深度与不同骨干的性能，可以看到：

S2D-chain+GFPN的组合取得了优于其他骨干的性能，这验证了我们的假设：相比常规骨干，FPN对于检测性能更重要；
ResNet+GFPN组合时，伴随骨干部分变大，模型的性能会下降。我们认为：这可能源自于域漂移问题。

从上表5可以看到：当引入DCN后，GiraffeDet的性能可以进一步提升，GiraffeDet-D11+DCN甚至可以取得比GiraffeDet-D16更优的性能；

从上表6可以看到：在相当推理速度下，GFPN-tiny搭配DCN增强骨干时可以改善模型性能；随GFPN的深度提升，模型性能可以进一步提升；

上图与表给出了同等FLOPs水平下所提GiraffeDet与ResNet-FPN-GFocalV2的速度-性能对比，从中可以看到：

GiraffeDet取得了显著性能提升，同时具有相近的推理速度；
以FPS作为参考，GiraffeDet的性能下降更慢。

上表对比了骨干为ResNet18时不同Neck的性能，可以看到：

在同等FLOPs水平下，所提GFPN具有比BiFPN更优的性能；
检测器性能会随GFPN的深度增加而进一步提升。

最后附上不同检测器检测效果对比，从中可以看到：总而言之，所有方法都能从图像中检测到实例。但是，GiraffeDet可以检测到更多实例，尤其在小目标检测方面表现更佳。这进一步验证了所提GFPN架构在目标大尺度变化方面的优秀处理能力。

本文仅做学术分享，如有侵权，请联系删文。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：