干翻一众 FPN，专攻小目标检测！CFPT：无需上采样的新型FPN

自动驾驶之心

于 2024-08-11 00:01:59 发布

阅读量209

点赞数 1

文章标签：目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247622362&idx=3&sn=51327a402573770dac8a77a567b9c5ad&chksm=cf65a324baf3e66f8aa8dd48f20c02ec0ccc6d7e5795e80e903cc11d28d6fc77e2692cbc18c0&scene=126&sessionid=0

版权

作者 | 集智书童编辑 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『目标检测』技术交流群

本文只做学术分享，如有侵权，联系删文

极市导读

在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

目标检测一直是一项具有挑战性的任务。大多数当前检测器优先考虑新颖的检测框架，却常常忽视了对基本组成部分（如特征金字塔网络）的研究。在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。CFPT采用了两个精心设计的、具有线性计算复杂度的注意力模块：跨层通道注意力（CCA）和跨层空间注意力（CSA）。

CCA通过划分通道 Token 组来实现跨层交互，以沿空间维度感知跨层全局信息；而CSA则通过划分空间 Token 组来完成跨层交互，以沿通道维度感知跨层全局信息。通过整合这些模块，CFPT一步实现跨层交互，从而避免了元素逐点加和以及层与层之间传递引起的语义差距和信息丢失。此外，CFPT融入了全局上下文信息，这增强了小目标的检测性能。为了在跨层交互中进一步提升位置感知，作者基于层间相互感受野提出了跨层一致相对位置编码（CCPE）。作者在两个具有挑战性的航拍图像目标检测数据集上评估了CFPT的有效性，分别是VisDrone2019-DET和TinyPerson。大量实验证明了CFPT的有效性，它在计算成本更低的情况下，性能优于现有的特征金字塔网络。

相关代码将在https://github.com/duzw9311/CFPT发布。

I Introduction

得益于卷积神经网络（CNNs）和视觉 Transformer （ViTs）的进步，现有的目标检测器已经取得了显著的发展，并在自动驾驶、人脸检测、医学图像分析和工业质量检查等众多应用领域奠定了其基本解决方案的地位。

作为目标检测的一个子领域，小目标检测由于在卷积和池化操作过程中小目标特征可能会被大目标特征所淹没或遮盖，因此相较于传统的目标检测任务面临更大的挑战。如图3所示，作者展示了两个经典的小目标检测数据集在航拍图像中的数据分布箱线图：VisDrone2019-DET [2] 和 TinyPerson [3]。箱线图凸显了 VisDrone2019-DET 数据集不仅包含大量小目标（20到30像素），而且存在显著的尺度变化。相比之下，TinyPerson 数据集相比于 VisDrone2019-DET，主要包含更小尺寸的目标，大多数目标的大小不超过20像素。无人机飞行高度和拍摄角度显著影响目标尺度分布，导致在航拍图像上的目标检测性能相对较差。

图1：在VisDrone2019-DET数据集上，各种最先进特征金字塔网络的性能比较。作者通过替换RetinaNet [1]中的 Neck 组件来评估它们的性能。

为了应对这些挑战，已经连续提出了许多研究。鉴于无人机场景中前景的比例较小，现有的解决方案通常采用由粗到精的检测方案[4, 5, 6]。在粗略预测阶段，通常使用一个通用检测器来检测目标并预测密集的目标簇。随后，在细化阶段，通常会修剪、上采样该簇，并将其重新输入检测器以进行精细搜索。尽管上述模型架构可以有效地适应无人机视角，并且在较低的计算成本下比直接输入高分辨率图像增强了各种检测器的性能，但它仍然缺少专为空中图像中目标检测定制的基本组件，例如特征金字塔网络。特征金字塔网络作为图像金字塔的低计算成本替代方案，在多种检测器中被广泛使用，并已成为每个检测器的基本组成部分。最早的FPN [7]使用自上而下的单向路径将语义信息整合到浅层特征图中，有效增强了模型在多尺度目标检测方面的能力。由于逐层传递的单向路径不可避免地造成信息丢失[8]，随后的特征金字塔网络逐渐过渡到层与层之间的直接交互。

作者提出CFPT，一种新的跨层特征金字塔结构，它通过在不同方向（即空间方向和通道方向）促进跨层信息交互来增强模型的表达能力。

通过整合这两种交互，CFPT能够有效地捕获小型目标的必要全局上下文信息，同时保持较低的计算成本。

作者提出CCPE，一种基于层间互惠感受野的新型位置编码方法，旨在增强模型在跨层交互过程中对空间和通道位置的认识。
通过在VisDrone2019-DET和TinyPerson数据集上的大量实验，作者证明了CFPT在航拍图像中小型目标检测的有效性。

II Related Work

Small Object Detection in Aerial Images

现代的目标检测器通常通过连续的卷积和池化层降低输入图像的分辨率，力求在性能与计算复杂度之间达到最佳平衡。因此，检测小物体本质上比常见目标检测更具挑战性，因为它们的小尺寸增加了在下采样过程中信息丢失的风险。

对于航拍图像中的小目标检测，ClusDet [17]采用了一种从粗到精的方案，首先检测密集的目标簇，然后在这些簇内进行搜索细化，以提高模型检测小物体的能力。DMNet [18]简化了ClusDet的训练过程，通过采用密度图生成网络来为簇预测生成密度图。遵循类似的检测流程，CRENet [19]和GLSAN [4]进一步增强了聚类预测算法，并优化了细粒度预测方案。UFPMP-Det [6]采用UFP模块和MPNet预测子区域，并将它们组装成单一图像以实现高效的单一推理，从而提高了检测的准确性和效率。CEASC [20]利用稀疏卷积优化了航拍图像中目标检测的传统检测器，降低了计算需求同时保持了竞争力的性能。DTSNNet [21]在Backbone和Neck之间引入了人工设计的块，以提高模型对多尺度特征的敏感性，并采用了专门针对小物体的训练样本选择方法。

上述解决方案优化了各种检测器，以适应航拍图像中的目标检测场景，而作者提出了一种专门针对这一背景下小目标检测的新型特征金字塔网络。

Feature Pyramid Network

为了减轻图像金字塔带来的巨大计算成本，特征金字塔网络（FPN）作为一种有效且高效的替代方法出现，它提高了各种检测器的性能。FPN [7] 利用一系列自顶向下的快捷连接来增强浅层特征图中缺乏的语义信息。基于FPN，PAFPN [12] 提出使用自底向上的快捷连接来解决深层特征图中细节信息的不足。Libra-RCNN [22] 通过结合非局部块来改进原始特征，以获得平衡的交互特征。为了减轻多尺度特征图中的语义差距，AugFPN [23] 引入了连贯的监督分支，并提出了ASF，用于跨多尺度动态特征融合。FPG [8] 使用规则网格表示特征尺度空间，并通过平行路径之间的多方向横向连接进行融合，从而增强了模型的特征表示能力。AFPN [11] 通过深层和浅层特征图的跨 Level 融合迭代改进多尺度特征，在具有常见尺度分布的目标检测中取得了竞争性的性能。

与先前方法不同，作者提出了CFPT，它利用全局上下文信息，并策略性地强调浅层特征图，以增强航拍图像中小型目标的检测。

Vision Transformer

作为计算机视觉中Transformer[24]的扩展，Vision Transformer (ViT)[25]在各种各样的视觉场景中[26, 27, 28]展示了显著的潜力。由于传统ViT与图像分辨率相关的二次计算复杂度，后续研究主要集中在开发轻量级的替代方案。Swin Transformer[29]通过限制特定窗口内的交互，并在交互过程中移动这些窗口以实现全局感受野。局部ViT[30, 31, 32]通过局部窗口内的交互引入局部诱导偏差，有效降低了模型的计算复杂度并加快了收敛速度。轴向注意力[33]通过将交互限制在图像宽度和高度上的条带，减少了计算复杂度。

遵循类似的轻量级概念，作者设计了两款具有线性复杂度（即CCA和CSA）的注意力块，以跨层捕捉沿各种方向（即空间方向和通道方向）的全局上下文信息，从而增强了模型对小物体的检测能力。

III Methodology

在本节中，作者将详细介绍所提出的跨层特征金字塔 Transformer （CFPT）。在第三节A部分，作者首先概述了所提出CFPT的整体架构。随后，在第三节B和C部分，作者介绍了CFPT的两个关键组成部分，即跨层通道注意力（CCA）和跨层空间注意力（CSA）。在第三节D部分，作者提出了一种新颖的跨层一致相对位置编码（CCPE），旨在增强模型的跨层位置感知能力。

Overview

如图4所示，CFPT采用多个并行的CBR块来构建跨层特征交互的输入，这些输入来自特征提取网络（如ResNet[34]）的多级特征图输出，从而降低了计算复杂度，满足了大多数检测器在架构上的要求。通过利用堆叠的跨层注意力模块（CAMs），CFPT增强了模型利用全局上下文信息和跨层多尺度信息的能力。

具体来说，CAM模块由一系列跨层通道注意力（CCA）和跨层空间注意力（CSA）组成。CCA沿着通道维度促进局部跨层交互，从而通过每个通道 Token 组的交互在空间维度上建立一个全局感受野。相反，CSA沿着空间维度促进局部跨层交互，通过每个空间 Token 组的交互捕捉通道维度的全局上下文信息。此外，作者通过在CAM的输入和输出之间使用捷径分支来进一步提高梯度增益。

假设经过CBR块后每个尺度的特征图可以表示为 , 其中是输入层的数量, 每个特征图的空间分辨率随橧加而增大, 同时保持通道数不变。上述过程可以描述为

其中是一组经过跨层交互的多尺度特征图，其形状与相应的输入特征图保持一致。

值得注意的是，作者的CFPT消除了复杂特征上采样操作和逐层信息传输机制，这些机制在层间传输过程中容易造成信息丢失，并导致计算负载增加和内存访问延迟。相反，作者通过利用尺度间相互感受野大小的局部分组操作，对多尺度特征图执行一步跨层邻近交互操作，从而促进尺度间的信息混合。这种方法使得每个尺度的特征能够平衡地从其他层获取信息（即使这些层相隔较远），同时促进自我修正，并从局部交互提供的归纳偏置中受益[32]。

跨层通道注意力

假设CCA的输入特征图集合为。如图5(a)所示, CCA沿着通道维度执行跨层的多尺度邻近交互, 从而为每个通道 Token 提供空间维度的全局上下文信息。为了构建交互式输入, 作者首先在每个尺度上对特征图执行通道重建 (CR), 以确保它们具有相同的空间分辨率, 从而得到。CR是一个与YOLOv5中的Focus类似的操作符,但不同之处在于它不使用额外的操作进行特征映射。相反, CR将空间维度的特征值堆叠到通道维度, 从而在保持效率的同时实现一致的空间分辨率。上述过程可以描述为

接下来, 作者执行重叠通道式 Patch 划分 (OCP) 以形成通道式标记组, 这可以看作是沿着通道维度在局部区域具有重叠区域的 Patch 嵌入[25], 其中不同尺度的特征图上的 Patch 大小是不同的。具体来说, 根据多尺度特征的形状, 中相邻特征图的通道大小相差一个 4 倍因子（即, )。为了构建重叠的邻近交互组, 作者引入一个扩展因子对执行OCP, 从而得到。上述过程可以描述为：

以第层的特征图为例, 在获得之后, 作者采用跨层一致的多头注意力机制来捕获沿空间维度的全局依赖性, 从而得到交互结果。

其中是线性投影矩阵。分别表示连接的键和值, 其中代表连接操作。表示第个跨层一致相对位置编码（CCPE）, 具体细节将在第三节D中介绍。注意, 为了简化, 作者只考虑头数为 1 的情况。在实践中, 作者采用多头机制来捕获每个通道式标记的全局依赖性。

在为每个尺度的特征图获得交互结果之后, 作者应用反向重叠通道式 Patch 划分 (ROCP) 来恢复 OCP 的影响, 并得到。作为 OCP 的反向操作, ROCP旨在使用与OCP相同的核大小和步长来恢复原始的空间分辨率。

作者最终使用空间重建 (SR) 来获得与输入X形状相匹配的结果。

Cross-layer Spatial-wise Attention

同样，将CSA的输入特征图集合表示为。如图5(b)所示，CSA沿着空间维度跨层执行多尺度邻近交互，为每个空间标记提供沿通道维度的全局上下文信息。

由于输入特征图的通道大小在CBR块后匹配（例如，256），无需使用CR和SR等方法来调整它们的大小, 正如在CCA中所做的那样。因此, 作者可以直接执行重叠空间划分 (OSP) 来形成空间标记组, 这可以看作是在不同尺度特征图上使用不同大小的矩形框进行滑动裁剪。假设OSP的扩展因子为 , 通过上述操作, 作者可以得到。上述过程可以表示为

然后, 作者在跨层空间标记组内执行局部交互, 并使用跨层一致性多头注意力来捕获沿通道维度的全局依赖性, 从而得到。对于第层的特征图, 这个过程可以表示如下:

其中是线性投影矩阵。和。表示第层的跨层一致性相对位置编码 (CCPE) 。

接下来, 作者使用反向重叠空间划分（ROSP）来反转OSP的效果, 并获得交互结果集。

Cross-layer Consistent Relative Positional Encoding

由于在交互过程中，它们各自的跨层标记组内的每个标记都保持着特定的位置关系。然而，传统的多头注意力机制统一处理所有交互标记，这对于像目标检测这样对位置敏感的任务来说会导致次优结果。因此，作者引入了跨层一致相对位置编码（CCPE），以增强CFPT在交互过程中的跨层位置感知。

CCPE的主要解决方案是基于对多个尺度上的相互感受野进行对齐, 这由卷积的特性决定。以CSA 为例, 每对空间标记组之间的注意力图集合其中是头的数量, , 如方程 9 中定义。为了简化, 作者忽略和 , 并定义和 , 其中和分别表示第层和第层空间标记组的高度和宽度。因此, 注意力图集合可以重新表示为。

CCGE的过程如图6所示。作者定义了一个可学习的码本 , 并通过计算它们的跨层一致相对位置索引, 从码本中获取任意两个标记之间的相对位置信息。为了简化, 考虑来自第层和第层的空间标记组的交互，其中和分别表示它们各自的绝对坐标矩阵。

为了获得相对于的相对位置信息, 作者首先使用它们各自的空间标记组大小来中心化它们的坐标, 以获得和。

Complexity Analysis

在本节中，作者将分析典型相关分析（CCA）和通道分割注意力（CSA）的计算复杂性。此外，由于在训练和测试阶段，空间域和通道域的标记组大小保持不变，它们的计算复杂性与输入特征图的空间分辨率成线性关系。

Iii-E1 Cross-layer Channel-wise Attention

考虑一组输入特征图集合, 记作。此外, 令表示在CCA中使用的扩展因子。CCA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的。

Iii-E2 Cross-layer Spatial-wise Attention

假设输入特征图集合为。此外, 令表示在CSA中使用的扩展因子。CSA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的。

IV Experiments

Datasets

作者通过将提出的CFPT应用于两个特别为从小型无人机视角进行小目标检测而设计的挑战性数据集来评估其有效性：VisDrone2019-DET [2] 和 TinyPerson [3]。

Iv-A1 VisDrone2019-DET

这个数据集包含了7,019张由无人机拍摄的图片，其中6,471张用于训练，548张用于验证。数据集涵盖了十个类别：自行车、三轮车、三轮机动车、货车、公交车、卡车、摩托车、行人、人以及汽车。这些图片的分辨率大约为像素。

Iv-A2 TinyPerson

这个数据集由无人机收集，主要用于远距离场景中的小目标检测，因为目标目标的平均长度小于20像素。它包含1,610张图片，其中794张用于训练，816张用于测试。数据集包含72,651个标记实例，分为两组：“海上行人”和“陆地行人”。为了简化，作者将上述两个类别合并为一个类别，命名为“行人”。

Implementation Details

作者使用PyTorch [48] 和MMdetection工具箱 [49] 实现了所提出的CFPT。所有模型都在单块RTX 3090上进行训练和测试，批处理大小为2。在模型训练中，作者使用SGD作为优化器，学习率为0.0025，动量为0.9，权重衰减为0.0001。作者在VisDrone2019-DET数据集上进行了消融研究，并比较了各种最先进的特征金字塔网络性能，输入分辨率为，并采用计划（12个周期）。为了加速模型收敛，作者在训练开始时采用了线性预热策略。为了比较在VisDrone2019-DET数据集上各种最先进检测器的性能，作者训练模型15个周期，以确保按照CEASC [20]的方法完全收敛。

在TinyPerson数据集 [3] 的实验中，为了减少内存使用过度，作者将高分辨率图像划分为大小均匀的块，并设有30%的重叠比例。每个块按比例缩放，以确保最短边长为512像素。为了全面评估模型性能，作者在模型训练中设置了批处理大小为1，并采用计划，同时实施多尺度训练和多尺度测试。

Comparison with Other Feature Pyramid Networks

作者最初在VisDrone2019-DET数据集上，将提出的CFPT与基于RetinaNet [1]的各种最先进特征金字塔网络性能进行了比较。如表格I所示，作者的CFPT在不同的 Backbone 网络上，包括ResNet-18、ResNet-50和ResNet-101，均取得了RetinaNet的最佳结果，同时在性能与计算复杂度之间取得了最优平衡。此外，与专注于航拍图像中小目标检测的SSFPN相比，作者的CFPT在参数更少（分别为-3.8M、-3.5M和-3.5M）和FLOPs更低（分别为-55.5G）的情况下，实现了更好的性能（+0.8 AP、+0.5 AP和+0.4 AP）。这证明了CFPT在航拍图像中小目标检测的应用潜力。

Comparison with State-of-the-Art Methods

为了进一步验证CFPT的有效性，作者将当前最先进检测器中的特征金字塔网络替换为CFPT，并在VisDrone2019-DET和TinyPerson数据集上比较其性能表现。

Iv-D1 VisDrone2019-DET

作者将GFL [43]中的特征金字塔替换为CFPT，并将其性能与各种最先进的检测器进行比较。如表格II所示，应用作者的CFPT分别基于ResNet-18、ResNet-50和ResNet-101，将GFL的性能提升了0.8 AP、0.7 AP和0.7 AP。尽管参数数量略有增加，分别为0.3 M、0.2 M和0.2 M。与CEASC [20]相比，作者的参数仅增加了0.1 M，却实现了显著的性能提升（分别提升了+0.7 AP、+0.6 AP和+0.6 AP），证明了作者CFPT的有效性。

Iv-D2 TinyPerson

在TinyPerson数据集上的比较中，作者采用了文献[3]中定义的评价指标来全面评估模型的性能。作者观察到，GFL [43]在细粒度检测方面表现出色，这体现在其在AP-tiny指标上的优越性能上；而FSAF [41]在粗粒度预测方面更为有效，这从其在AP-tiny和AP-tiny指标上的更好性能可以证明。因此，作者将CFPT分别整合到GFL和FSAF中，以评估其在两种场景下的适应性。如表格III所示，CFPT带来了显著的性能提升，包括为GFL提高了2.4个AP-tiny（44.2 AP-tiny对比41.8 AP-tiny），以及为FSAF提高了2.0个AP-tiny（44.5 AP-tiny对比42.5 AP-tiny），所有性能指标均有增强。因此，有效整合CFPT可显著提升模型对小物体的检测性能，证明了其在航拍图像中小目标检测的有效性。

Ablation Study

在消融研究部分的开头。

V-E1 Order of CCA and CSA

作者研究了CCA（典型相关分析）和CSA（通道空间注意力）应用的顺序对模型性能的影响。具体来说，作者比较了如图7所示的三种解决方案的性能，包括先应用CCA后应用CSA（CCACSA）、先应用CSA后应用CCA（CSACCA）以及同时应用CCA和CSA（CCACSA）。如表4所示，CCACSA的模式取得了最优性能，平均精度（AP）为22.2。作者认为这是因为CCA沿着空间方向提供了全局感受野，使得CSA能够利用全局上下文信息来预测更准确的注意力图，并获取更优的邻近细节信息。然而，由于CSA沿着通道方向具有全局感受野，首先应用它可能会破坏局部性，阻止CCA准确关注空间上的邻近信息。此外，CCACSA将导致CCA和CSA之间没有交互，使得无法利用彼此的信息进行精细的信息聚合。

V-E2 Effectiveness of each proposed component

作者通过逐步将提出的模块整合到 Baseline 模型（即没有FPN的RetinaNet）中来评估每个组件的有效性。如表5所示，将CCA和CSA分别整合到 Baseline 模型中，显著提升了模型性能，分别提高了3.5个AP和3.4个AP。将CCA和CSA综合整合到CAM中，模型实现了3.9个AP的提升（22.0 AP对比18.1 AP）。随后，应用CCPE进一步增强了模型性能，最终AP达到了22.2。值得注意的是，与表1中的大多数特征金字塔网络相比，仅整合CCA或CSA就能实现更优的性能，这突显了它们在航空图像中小目标检测的潜力。

作者还报告了每个组件对模型计算复杂度、参数数量和推理速度的影响，具体见表5。当仅使用单一组件（例如CCA）时，与 Baseline 模型相比，CFPT引入了额外的1.4M参数、7.4G FLOPs和每张图像0.004秒的推理延迟，同时实现了显著性能提升（+3.5 AP）。当使用所有组件时，CFPT引入了额外的2.8M参数、14.8G FLOPs和每张图像0.01秒的推理延迟，同时实现了显著性能提升（+4.1 AP）。因此，CFPT能够在性能与计算复杂度之间实现更好的平衡。

Iv-D3 Number of CAMs

作者评估了CAMs数量对模型性能的影响。如表格VI所示，增加CAMs的数量一致性地提升了模型的性能。当使用三个CAMs时，模型达到了22.5的AP，相较于 Baseline 模型提高了4.4个AP点（22.5 AP对比18.1 AP）。为了更好地平衡计算复杂度与性能，作者在所有其他实验中将CAM的堆叠数量设置为1，尽管更多的CAMs会带来更多的好处。

Iv-D4 Channel Size reduction factor and MLP ratio

作者研究了不同的通道尺寸缩减因子（即特征图通道在注意力交互中的压缩比）和多层感知器（MLP）比例（即在FFN中通道尺寸的扩展比）的影响，旨在找出能够平衡计算复杂度和模型性能的最佳组合。如图9所示，当通道尺寸缩减因子设为4，MLP比例设为2时，模型在计算复杂度和性能之间达到了最佳平衡。因此，在VisDrone2019-DET和TinyPerson数据集上进行的所有实验中，作者均采用这一组合方案。

Qualitative Analysis

作者通过在VisDrone2019-DET和TinyPerson数据集上可视化检测结果来对CFPT进行定性分析，所有可视化的置信度阈值设置为0.3。如图8所示，作者将CFPT应用于GFL，并将其与 Baseline 模型（即GFL）和CEASC在VisDrone2019-DET数据集上进行定性比较。应用CFPT有效降低了模型的漏检率（第一行和第三行）和误检率（第二行），从而提升了整体性能。此外，图8的第三行展示了CFPT在小目标检测方面的有效性。如图10所示，在TinyPerson数据集上的检测结果进一步验证了上述解释，表明CFPT在降低漏检和误检率的同时，有效提升了模型对小目标的检测能力。

V Conclusion

在本论文中，作者引入了CFPT，这是一种新型的无需上采样的特征金字塔网络，

CFPT能够明确更多地关注浅层特征图，并摒弃基于静态核的交互方案，以减轻尺度差异对模型性能的影响，这使得它特别适合于航拍图像中的目标检测。

具体来说，CFPT由两个精心设计的、具有线性计算复杂度的注意力模块组成，分别为CCA和CSA。这两个模块从不同角度捕捉上下文信息，它们的融合为模型提供了对检测小目标至关重要的全局上下文建模能力。

此外，为了在跨层交互中增强位置感知，作者提出了一种新的位置编码方法CCPE。在两个具有挑战性的航拍数据集上的大量实验表明，CFPT在优于现有最先进的特征金字塔网络的同时，也降低了计算成本。

在未来的工作中，作者计划探索可变形的跨层交互解决方案，并研究更有效的实现策略。

参考

[1].Cross-Layer Feature Pyramid Transformer for Small Object Detection in Aerial Images.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频