2022最新综述 | 面向大规模场景的小目标检测：综述和 benchmark

自动驾驶之心

已于 2022-08-15 21:17:36 修改

阅读量914

点赞数 1

文章标签：大数据计算机视觉机器学习人工智能深度学习

于 2022-08-03 07:30:06 首次发布

本文链接：https://blog.csdn.net/CV_Autobot/article/details/126151846

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

论文链接：https://arxiv.org/pdf/2207.14096.pdf

后台回复【ECCV2022】获取ECCV2022所有自动驾驶方向论文！

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文！

1论文背景

目标检测在过去几年中取得了显著的进展，然而，由于小目标视觉特征较差、噪声较多，小目标检测已成为计算机视觉中最具有挑战性的任务之一。此外，用于小尺寸目标检测的大规模基准测试数据集仍然不够全面。本文首先对小目标检测方法进行了全面的回顾，除此之外，还构建了两个大规模小目标检测数据集（SODA），SODA-D和SODA-A，分别关注驾驶场景和空中场景。SODA-D包括24704张高质量交通图像和9个类别的277596个实例。SODA-A收集了2510张高分辨率航空图像，并在9个类中注释了800203个实例。SODA数据集是目前为止最大规模的小目标检测数据集。

数据集和代码将会在：https://shaunyuan22.github.io/SODA/上公布

2应用背景

小目标检测在监控、无人机场景分析、行人检测、自主驾驶交通标志检测等各种场景中具有重要的理论和现实意义；

虽然在通用目标检测方面取得了实质性进展，但小目标检测的研究进展相对缓慢，即使是SOTA网络，在检测小目标和正常尺寸目标方面也存在巨大的性能差距。以DyHead为例，DyHead在COCO测试集上小目标的平均精度（mAP）度量仅为28.3%，显著落后于中型和大型目标（分别为50.3%和57.5%）。我们认为这种性能下降有两个原因：

1）从小物体的有限和扭曲信息中学习适当表征存在固有的困难；

2）缺乏用于小对象检测的大规模数据集；

目前可用的数据集无法支持小目标检测的模型训练，也无法作为评估算法的公正基准。同时，作为构建数据驱动的深度CNN模型基础，大规模数据集的可访问性，如PASCAL VOC、ImageNet、COCO至关重要；

下图显示了前期的一些目标检测算法综述：

论文主要贡献

回顾了深度学习时代小目标检测的发展，并系统地综述了该领域的最新进展，可分为6类：数据处理方法、尺度感知方法、特征融合方法、超分辨率方法、上下文建模方法和其他方法。除分类外，还对这些方法的优缺点进行了深入分析。同时，我们回顾了跨越多个领域的十几个与小目标检测相关的数据集；
发布了两个用于小目标检测的大规模基准，其中第一个专用于驾驶场景，另一个专用于空中场景。拟议的数据集是首次尝试为小目标检测量身定制大规模基准，我们希望这两个详尽注释的基准可以帮助研究人员开发和验证小目标检测的有效框架，并促进该领域的更多突破；3.在我们的数据集上调查了几种有代表性的目标检测方法的性能，并根据定量和定性结果进行了深入分析，这可能有助于后面进行小目标检测的研究；

3小目标检测基础回顾

问题定义

术语“微小”和“小”通常由面积阈值或长度阈值定义，以COCO为例，面积小于等于1024像素的对象属于小目标，考虑到目前为止没有关于小对象的统一和明确的定义，除非另有规定，在论文中遵循原始文件中关于这些微小术语的表达。

主要挑战

包括目标信息丢失、噪声特征表示和边界框扰动的低容忍；

1.目标信息丢失

特征提取器通常利用子采样操作来过滤噪声，并降低特征图的空间分辨率，从而不可避免地丢失目标信息。考虑到最终特征仍然保留了足够的信息，这种信息丢失在一定程度上几乎不会影响大中型对象的性能。然而这对小目标来说是致命的，因为检测头很难在高度结构化的表示上给出准确预测，在这种表示中，小物体的微弱信号几乎被消除。

2.噪声特征表示

判别特征对于分类和定位任务都至关重要，小物体通常分辨率低，外观质量差，因此很难从其扭曲的结构中进行区分学习。同时，小对象的区域特征容易受到背景和其他情况的污染，从而进一步将噪声引入学习表示。综上所述，小目标的特征表示容易受到噪声的影响，阻碍后续检测。

3.边界框扰动的低容忍

定位作为检测的主要任务之一，在大多数检测范式中被表述为回归问题，其中定位分支被设计为输出边界框偏移，通常采用联合交集（IoU）度量来评估精度。然而，定位小对象比定位大对象更困难。如图下图所示，与中大型对象（56.6%和71.8%）相比，小对象预测框的微小偏差（沿对角线方向的6个像素）导致IoU显著下降（从100%降至32.5%）。同时，更大的差异（例如，12像素）进一步加剧了这种情况，对于小对象，IoU下降到可怜的8.7%。也就是说，与较大的对象相比，小对象对box扰动的容忍度较低，从而加剧了回归分支的学习。

近年来小目标检测上的一些范式和方法，主要包括：

数据增强方式

基于重/过采样的方法
自动增强方案

尺度感知方法

分而治之的多尺度检测
自适应定制的训练方案

特征融合方式

自上而下的信息交互
精细特征融合

超分辨率方法

基于学习的尺度扩充
基于GAN的超分辨率框架

上下文建模方法

人类可以有效地利用环境和物体之间的关系或物体之间的相互关系来促进物体和场景的识别。这种捕捉语义或空间关联的先验知识称为上下文，它将证据或线索传递到目标区域之外。上下文信息不仅在人类的视觉系统中至关重要，在场景理解任务中也至关重要。

其它方法

Attention-based methods
Localization-driven optimization
Density analysis guided detection

4小目标检测数据集汇总

目前并没有大规模的小目标检测基线数据集，现开源的主要包括：COCO、WiderFace、TinyPerson、TT100K、DOTA，各个数据集的图像规模和实例规模如下图所示：

5BENCHMARKS

为了一致性起见，论文采用绝对面积作为定义小对象的标准。根据经验，2000年对于定义一个小对象来说是一个相当宽松的界限，因此，论文将对象分为两个组：小对象和微小对象。此外，考虑到当物体尺寸变小进一步将微小物体分为三个子集：极微小（eT）、相对微小（rT）和一般微小（gT）。

论文在自动驾驶和遥感图像上展开了处理；SODA-D中的图像主要来自MVD、自采集和互联网。MVD是一个用于街道场景语义理解的大规模数据集，其中25000张高质量图像是从道路上采集的景观、公路、农村和越野场景。由于MVD的高质量和高分辨率特性，我们可以获得大量具有清晰视觉结构的有价值实例。对于自采集部分，我们使用车载摄像机和手机收集中国几个城市的典型驾驶场景的图像，包括北京、深圳、上海、青岛、广州等。此外，还通过在图像搜索引擎（谷歌、必应、百度等）上搜索关键字来抓取图像。最后获得了30126张交通场景的原始图像。受先驱作品的启发，Google Earth2被用于为SODA-A收集图像，我们从专家建议的全球数百个城市中提取了2976张图像。SODA-A中的图像具有相对较高的分辨率，其中大多数图像的分辨率大于4700×2700，能够获得更精细的细节和足够的上下文，这对小对象检测具有重要意义。

数据集的类别分布及可视化如下图所示：

SODA-A和SODA-D数据集和其它数据的数量类别对比：

SODA-D属性

丰富性高、分辨率高、忽略非忽略标记；

SODA-A属性

密度变化大、各种方向、地点丰富！

6实验

论文还将几种常见的方法在SODA数据集上进行了实验对比，可供后续的研究参考；

SODA-A自动驾驶场景

SODA-D遥感场景

7总结

注释良好的数据集可以作为各种小目标检测方法提供基准测试的平台。在小目标检测的基础上对几种有代表性的算法进行了全面的评估和比较，基于这些结果，我们讨论了几种潜在解决方案和未来发展方向。较深的主干网络可能不利于提取小对象的高质量特征表示，设计一个有效的backbone具有强大的特征提取能力，同时避免高计算成本和信息丢失，这一点至关重要。FPN是小目标检测中不可或缺的一部分。尽管如此，当前的特征金字塔架构对于小目标检测来说并不理想，因为其顶层是冗余的且未使用启发式金字塔级分配策略，此外，在低层特征图上进行检测会带来沉重的计算负担，因此，对小目标检测任务量身定制的高效分层特征架构的需求很高。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向；

加入我们：自动驾驶之心技术交流群汇总！

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！