【论文解读】transformer小目标检测综述

合合技术团队

已于 2024-02-22 10:41:08 修改

阅读量3.5k

点赞数 60

分类专栏：【论文发布】文章标签：人工智能 transformer 深度学习图像处理

于 2024-02-22 10:34:00 首次发布

本文链接：https://blog.csdn.net/INTSIG/article/details/136226972

版权

一、简要介绍

二、研究背景

三、用于小目标检测的transformer

3.1 Object Representation

3.2 Fast Attention for High-Resolution or Multi-Scale Feature Maps

3.3 Fully Transformer-Based Detectors

3.4 Architecture and Block Modifications

3.6 Improved Feature Representation

3.7 Spatio-Temporal Information

一、简要介绍

Transformer在计算机视觉领域迅速普及，特别是在目标识别和检测领域。在检查最先进的目标检测方法的结果时，我们注意到，在几乎每个视频或图像数据集中，transformer始终优于完善的基于cnn的检测器。虽然基于transformer的方法仍然处于小目标检测（SOD）技术的前沿，但本文旨在探索如此广泛的网络所提供的性能效益，并确定其SOD优势的潜在原因。小目标由于其低可见性，已被确定为检测框架中最具挑战性的目标类型之一。论文的目的是研究可以提高transformer在SOD中的性能的潜在策略。本调查对跨越2020年至2023年的60多个针对SOD任务开发的transformer的研究进行了分类。这些研究包括各种检测应用，包括在通用图像、航空图像、医学图像、主动毫米图像、水下图像和视频中的小目标检测。论文还编制并提供了12个适合SOD的大规模数据集，这些数据集在以前的研究中被忽视了，并使用流行的指标如平均平均精度（mAP）、每秒帧（FPS）、参数数量等来比较回顾研究的性能。

二、研究背景

小型目标检测（SOD）已被认为是最先进的（SOTA）目标检测方法的一个重大挑战。术语“小目标”指的是占据输入图像的一小部分的目标。例如，在广泛使用的MS COCO数据集中，它定义了在典型的480×640图像中，边界框为32×32像素或更小的目标（图1）。其他数据集也有自己的定义，例如，占图像10%的目标。小目标经常被错误的局部边界框遗漏或发现，有时还会有不正确的标签。SOD中定位不足的主要原因是输入图像或视频帧中提供的信息有限，再加上它们在深度网络中通过多层时随后经历的空间退化。由于小目标经常出现在行人检测、医学图像分析、人脸识别、交通标志检测、交通灯检测、船舶检测、基于合成孔径雷达（SAR）的目标检测等各种应用领域中，因此值得研究现代深度学习SOD技术的性能。在本文中，作者比较了基于transformer的检测器与基于卷积神经网络（CNNs）的检测器在其小目标检测方面的性能。在性能明显优于cnn的情况下，论文然后试图揭示transformer的强大性能背后的原因。一个直接的解释可能是，transformer建模了输入图像中成对位置之间的相互作用。这是一种有效的编码上下文的方式。而且，在人类和计算模型中，上下文都是检测和识别小目标的主要信息来源。然而，这可能不是解释transformer成功的唯一因素。具体来说，论文的目标是从几个维度来分析这一成功，包括目标表示、对高分辨率或多尺度特征图的快速关注、完全基于transformer的检测、架构和块修改、辅助技术、改进的特征表示和时空信息。此外，论文还指出了有可能提高SOD transformer性能的方法。

在之前的工作中，论文调查了许多基于深度学习的策略，以提高到2022年在光学图像和视频中的小目标检测的性能。论文发现，除了适应transformer等较新的深度学习结构之外，流行的方法还包括数据增强、超分辨率、多尺度特征学习、上下文学习、基于注意力的学习、区域建议、损失函数正则化、利用辅助任务和时空特征聚合。此外，论文观察到，transformer是在大多数数据集中定位小目标的主要方法之一。然而，考虑到之前的工作主要评估了160多篇关注于基于cnn的网络的论文，因此没有对以transformer为中心的方法进行深入的探索。认识到该领域的增长和探索速度，现在有了一个及时的窗口来深入研究针对小目标检测的当前transformer模型。在本文中，作者的目标是全面了解影响transformer在应用于小目标检测时令人印象深刻的性能的因素，以及它们与用于通用目标检测的策略的区别。为了奠定基础，论文首先突出了著名的基于transformer的SOD目标检测器，并将它们的进展与现有的基于cnn的方法并列起来。自2017年以来，该领域已经发表了大量的综述文章。在之前的调查中介绍了这些评论的广泛讨论和清单。最近的另一篇综述文章也主要关注基于cnn的技术。当前综述的叙述与之前的叙述不同。本文中的重点特别缩小到transformer——一个之前没有探索过的方面——将它们定位为图像和视频SOD的主导网络架构。这需要针对这种创新体系结构量身定制的独特分类法，有意识地避开基于cnn的方法。鉴于这个主题的新颖性和复杂性，论文的评论主要优先考虑2022年后提出的作品。此外，论文还阐明了在更广泛的应用范围中用于定位和检测小目标的新数据集。本调查中的研究主要提出了针对小目标定位和分类的方法，或间接解决了SOD的挑战。推动我们进行分析的是这些论文中为小目标指定的检测结果。然而，早期的研究注意了SOD结果，但在其开发方法中表现出不佳或忽略了SOD特定参数，没有考虑纳入本综述。在本调查中，我们假设读者已经熟悉了通用的目标检测技术、它们的架构和相关的性能度量。本文的结构如下：在第3节中，论文提出了一个基于transformer的SOD技术的分类，并对每个类别进行了全面的深入研究。第4节展示了用于SOD的不同数据集，并跨一系列应用程序对它们进行了评估。在第5节中，论文分析并将这些结果与之前来自CNN网络的结果进行了对比。本文在第6节中总结了一些结论。

三、用于小目标检测的transformer

在本节中，论文将讨论基于transformer的SOD网络。小目标检测器的分类法如图4所示。论文表明，现有的基于新型transformer的检测器可以通过以下一个或几个角度进行分析：目标表示、对高分辨率或多尺度特征图的快速注意力、完全基于transformer的检测、架构和块修改、辅助技术、改进的特征表示和时空信息。在下面的小节中，将分别详细讨论这些类别。

3.1 Object Representation

在目标检测技术中已经采用了各种目标表示技术。感兴趣的目标可以用矩形框、中心点和点集、概率目标和关键点来表示。在需要注释格式和小目标表示方面，每种目标表示技术都有自己的优缺点。在保持现有表示技术的所有优势的同时，寻找最优表示技术的追求，从RelationNet++开始。这种方法连接了各种异构的视觉表示，并通过一个称为桥接视觉表示（BVR）的模块结合了它们的优势。BVR可以有效地运行，但并不破坏主要表示所采用的整体推理过程，它利用了关键采样和共享位置嵌入的新技术。更重要的是，BVR依赖于一个注意模块，该模块将一种表示形式指定为“主表示”（或查询），而其他表示则被指定为“辅助”表示（或键）。BVR块如图5所示，它通过将中心点和角点（键）无缝集成到基于锚定（查询）的目标检测方法中，增强了锚定盒的特征表示。

3.2 Fast Attention for High-Resolution or Multi-Scale Feature Maps

以往的研究表明，保持高分辨率的特征图是保持SOD中高性能的必要步骤。与cnn相比，transformer本质上表现出明显更高的复杂度，这是因为它们的复杂度相对于令牌的数量（例如，像素数量）呈二次增加。这种复杂性来自于跨所有令牌的成对相关性计算的要求。因此，训练时间和推理时间都超过了预期，使得检测器不适用于高分辨率图像和视频中的小目标检测。在他们关于可变形的DETR的工作中，Zhu等人解决了第一次在DETR中观察到的这个问题。他们建议只关注一个参考文献周围的一小部分关键采样点，这大大降低了复杂性。采用这种策略，通过使用多尺度变形注意模块有效地保持了空间分辨率。值得注意的是，该方法消除了特征金字塔网络的必要性，从而大大提高了对小目标的检测和识别。变形注意中多头注意模块的第i个输出为：

其中，i = 1，···，T和pi是查询的参考点，∆phik是K个采样（K<<T=HW）的采样偏移量（2D）。图6说明了其多头注意模块内的计算过程。可变形的DETR受益于它的编码器和解码器模块，编码器内的复杂度顺序为O（HW C2），其中H和W为输入特征图的高度和宽度，C为通道数。与DETR编码器相比，复杂度为O（H2W2C），随着H和W的增加，复杂性呈二次增长。可变形注意在其他各种检测器中发挥了突出的作用，例如在T-TRD中。随后，DETR，具有动态编码器和动态解码器，利用从低分辨率到高分辨率表示的特征金字塔，从而实现高效的粗到细的目标检测和更快的收敛。动态编码器可以看作是完全自我注意的顺序分解近似，基于尺度、空间重要性和表征动态调整注意机制。可变形DETR和动态DETR都利用可变形卷积进行特征提取。在一种独特的方法中，O2DETR 证明了自注意模块提供的全局推理实际上对航空图像并不是必需的，在航空图像中，目标通常密集地聚集在同一图像区域。因此，用局部卷积代替注意模块，并集成多尺度特征映射，被证明可以在面向目标检测的环境中提高检测性能。RCDA作者提出了行-列解耦注意（RCDA）的概念，将关键特征的二维注意分解为两种更简单的形式：一维行注意和列注意。在CF-DETR 的情况下，提出了一种FPN的替代方法，即在第5级（E5）用编码器特征替换C5特征，从而改进了目标表示。该创新被命名为transformer增强型FPN（TEF）模块。在另一项研究中，Xu等人通过将跳跃连接操作与Swintransformer集成，开发了一个加权的双向特征金字塔网络（BiFPN）。这种方法有效地保存了与小目标相关的信息。

最低0.47元/天解锁文章