IEEE：一种简单高效的小目标检测网络

最新推荐文章于 2025-02-25 21:45:50 发布

象牙山首富_

最新推荐文章于 2025-02-25 21:45:50 发布

阅读量2.5k

点赞数 5

本文链接：https://blog.csdn.net/weixin_42390283/article/details/121579760

版权

小目标检测深度学习扩张卷积特征融合 passthrough模块

关键词由CSDN通过智能技术生成

本文提出了一种针对小目标检测的高效深度学习网络。通过使用扩张模块（DilatedModule）扩大感受野，特征融合技术结合不同层的特征信息，以及passthrough模块捕获小目标的精确位置信息，提升了小目标检测的性能。在VEDAI和DOTA数据集上的实验结果显示，该网络在保持与tinyYOLOV3相似的检测速度的同时，显著提高了平均精度（mAP），表现优于tinyYOLOV3，接近YOLOV3的检测效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文名称：A Simple and Efficient Networkfor Small Target Detection

Abstract

基于深度学习的目标检测技术发展迅速。然而，小目标检测仍然是一个挑战。本文提出了一种简单有效的小目标检测网络。我们提出了从三个方面提高小目标的检测性能。

首先，由于背景信息对于检测小目标非常重要，我们建议使用“dilated module”来扩大感受野，而不会丢失分辨率或覆盖范围。

其次，将特征融合应用于不同的dilated module，提高了网络对小目标的检测能力。

最后，我们使用“passthrough module”从浅层获得更细粒度的信息，并将其与深层的语义信息相结合。

为了提高网络的检测速度，我们提出采用1×1卷积来降低网络的维数。我们分别基于VEDAI数据集和DOTA数据集构建了小型车辆数据集，并分析了每个数据集中小型目标的分布情况。为了评估所提出网络的性能，我们在上述数据集上训练了该模型，并与最先进的目标检测算法进行了比较，我们的方法在VEDAI数据集上实现了80.16%的平均精度（AP），在DOTA数据集和每秒帧数（FPS）上实现了88.63%的平均精度（AP）是75.4。我们网络的AP比tiny YOLO V3的结果要好得多，并且与YOLO V3的结果几乎相同。然而，我们网络的FPS几乎与微型YOLO V3相同。

关键词：Deep learning, target detection, passthrough layer, dilated convolution

1、Introduction

目标检测已经成为计算机视觉领域的一个研究热点。目标检测的目的是确定目标的空间位置和类别。目前，目标检测已经广泛应用于我们的日常生活，如行人检测、人脸检测、车辆检测、智能监控和自主驾驶等。

小目标检测作为目标检测的关键技术之一，已成为近年来的研究热点。小目标具有分辨率低、特征不明显等特点，导致检测率低、误检率高。因此，小目标检测仍然是目标检测领域的一大挑战。

随着深度学习的发展，各种基于深度学习的目标检测方法被提出。深度卷积神经网络能够利用数据集自动学习待检测目标的特征，并逐步提高其模型的性能。广泛使用的基于深度学习的目标检测方法可分为两类。第一类是两阶段目标检测方法，如R-CNN、Fast R-CNN、Faster R-CNN、MaskR-CNN等。这些算法将目标检测过程分为两个阶段。首先生成稀疏的候选目标，提取候选目标的特征信息。然后可以进一步预测和识别候选目标的位置和类别。这些方法不适用于某些实时情况，第二类是一阶段目标检测算法，如OverFeat、SSD、DSSD、YOLO、YOLO9000、YOLO V3、You Only Look Twice等。这里不需要首先生成候选目标。这些方法通过网络直接预测目标的位置和类别，因此，一阶段的目标检测方法具有较快的检测速度。

虽然目标检测一直是研究的主题，但是小目标的检测问题却被忽视了。小目标RCNN[26]引入了一个小数据集，并选择小尺寸的anchor box来检测小目标。它们通过对图像进行上采样并裁剪包含proposal提议区域的相应上下文区域，从而提高小目标的检测性能。[27]将Faster RCNN应用于公司logo检测任务。他们介绍了一种生成anchor proposals的改进方案，并提出了对Faster RCNN的修改，该方案利用更高分辨率的特征图来生成小目标。上述方法基于两阶段目标检测方法。它们不适合某些实时情况。[28]探讨了在寻找小脸的上下文中问题的三个方面：尺度不变性、图像分辨率和上下文推理的作用。然而，它不是一种实时检测模型，且仅用于人脸检测。

作为最先进的目标检测方法之一，YOLO V3可以高精度检测不同尺度的目标。YOLO V3中有3种尺度。因此，它可以同时检测大目标和小目标。由于YOLO V3将早期层的特征图与深层的上采样特征图相结合，因此其对小目标的检测性能非常出色。为了提高检测速度，提出了一种称为tiny YOLO V3的网络。然而，与Yolo V3相比，它检测小目标的性能较差。我们的网络框架如图1所示。我们探索了三个方面来提高小目标的检测能力：dilated module, feature fusion, and passthrough module。

Dilated Module：

上下文信息对于检测小目标非常重要。一种方法涉及重复上采样以恢复丢失的信息，同时使用下采样层扩展感受野。然而，在这个过程中，目标的一些信息不可避免地丢失了。受扩张卷积的启发，我们建议使用“Dilated Module”在不损失分辨率或覆盖范围的情况下扩展感受野。

Feature Fusion：

不同层的特征图包含不同的特征信息。来自更浅层的特征图包含更细粒度的信息，而来自更深层的特征图包含更有意义的语义信息。浅层和深层的特征对于检测图像中的小目标都很重要，因此，我们在不同的dilated modules 中通过拼接进行特征融合，以充分利用小目标的特征。

Passthrough Module：

位置信息对于小目标至关重要。我们建议使用“Passthrough Module”从早期特征图中获取小目标的准确位置信息，并将其与深层特征图中的语义信息相结合。

为了减少计算量和提高检测速度，提出采用1×1卷积来降低网络维数。最后，我们在基于Vedai数据集[31]和DOTA数据集[32]制作的数据集上对我们的模型进行了训练和评估。对比实验表明，我们网络的平均精度mAP远优于tiny YOLO V3的结果，与YOLO V3的结果几乎相同。然而，我们网络的FPS几乎与tiny YOLO V3的每秒帧数相同。以上结果表明，我们的网络非常简单、快速、高效。

我们工作的主要贡献可以概括如下：

<1>、我们提出了“Dilated Module”来扩展感受野，提出了“Passthrough Module”来充分利用小目标的上下文信息和位置信息。针对小目标图像的特点，采用特征融合的方法从图像中获取丰富的细节信息和语义信息。为了使网络高效、快速，采用了1×1卷积来减小网络的维数。

<2>、我们分别基于Vedaid数据集和DOTA数据集构建了小型车辆数据集，并分析了小型目标在每个数据集中的分布情况

<3>、我们在VEDAI数据集和DOTA数据集上对模型进行了训练和评估。结果表明，我们提出的网络非常简单、快速和高效。我们提供了我们的网络与最先进网络的定量和定性比较。

本文的其余部分组织如下。第二节探讨了提高小目标检测性能的三个方面，并详细介绍了我们网络的主要框架。第三节对数据集进行了分析，并对实验和结果进行了演示，第四节是本文的结论。

2、ROPOSED METHODS

我们使用“dilated module”来扩展感受野。为了准确定位小目标并聚合多尺度上下文信息，“passthrough module”用于将细粒度信息与语义信息相结合。特征融合用于提高网络检测小目标的能力。为了减少计算量和提高检测速度，建议使用1×1卷积来降低网络的维数。

A、DILATED MODULE

dilated module：一般来说，上下文信息对于提高小目标检测性能非常有用，为了获得更多的上下文信息，扩大网络的感受野是必要的。使用下采样可以扩大感受野。但是，特征图的大小会减小，这会导致小目标信息的丢失。扩张卷积可以通过增加卷积核的大小，以不同的扩张速率来扩大感受野。特征图的大小未更改。因此，它支持在不损失分辨率和覆盖率的情况下对感受野进行指数扩展。如图2所示。

图2(a)由1-扩张卷积产生，其感受野为3×3。图2(b)由图2(a)经2-扩张卷积产生，其感受野为7×7。图2(c)由图2(b)经4倍放大的卷积产生，其感受野为15×15。正常卷积和扩张卷积的感受野比较如表1所示。随着卷积的扩大，神经网络的感受野明显扩大。

我们使用扩张卷积作为基本元素来构建“dilated module”，为了重用早期层中的特征，我们通过拼接将浅层的特征与深层的特征合并。为了提高网络的效率和速度，我们使用了1×1卷积来减少模块的维数。如图3所示，图3(a)是具有2倍扩张率的扩张卷积的dilated module A。图3(b)带4-扩张卷积的dilated module B。

B、PASSTHROUGH MODULE

浅层的特征包含更细粒度的信息，这有助于确定小目标的位置。为了利用浅层的特征，我们使用步距为2的passthrough层。passthrough层可以将特征图从2N×2N×C转换为N×N×4C。过程如图4所示。左侧是passthrough层的输入，右侧是passthrough层的输出。数字表示特征图中的像素。

我们使用passthrough层作为基本元素来构建“passthrough module”。通过“passthrough module”，浅层的特征可以与深层特征合并。采用1×1卷积的方法降低了模块的维数。如图5所示。A层代表浅层，B层代表深层。

C、FEATURE FUSION

在本文中，拼接用于将来自浅层的特征与来自深层的特征合并。在该网络的框架中，有两种特征融合方法。一种是在不同的dilated module之间拼接特征图，如图6所示。由于dilated module没有改变特征图的大小，因此可以直接通过连接合并特征。我们融合了dilated module A和dilated module B的特征，以增强不同感受野的特征信息。这种特征融合有利于特征重用。

另一个类似于passthrough层。当特征图经过下采样层时，特征图的大小已经改变了，如果我们想通过连接来合并来自不同特征图的特征，我们必须通过passthrough层或上采样层来统一特征图的大小。这种特征融合可以将前一层的细粒度信息与下采样特征中有意义的语义信息进行融合。在本文中，为了在不丢失分辨率的情况下合并来自浅层的细粒度信息，选择了passthrough层。

D、NETWORK ARCHITECTURE

图7显示了YOLO V3的体系结构。我们的网络和tiny YOLO V3的架构如表2所示。YOLO V3借鉴了残差神经网络的思想，网络中有53个卷积层用于提取小目标的特征。为了检测小目标，通过上采样将较深的层与较浅的层连接起来。因此具有良好的小目标检测性能。然而，YOLO V3网络太深，模型尺寸比我们提出的网络大得多。tiny YOLO V3被YOLO V3简化。共有5个maxpooling层，导致小目标信息丢失，难以准确定位小目标，所以它检测小目标的性能很差。我们提出的网络使用dilated modules来扩展感受野，而不是下采样层，并应用特征融合和passthrough模块来将细粒度信息与有意义的语义信息合并。此外，还采用了1×1卷积来降低网络的维数，使我们的网络更加高效、快速。

我们网络的目标是检测小目标。多个下采样层不适合检测小目标。然而，下采样层的数量直接影响感受野的大小。感受野的大小决定了小目标的上下文信息量。所以我们使用了两个dilated modules（dilated module A和dilated module B）来扩大感受野。从输入中两次下采样的特征图用作细粒度信息，并通过passthrough模块与三次下采样的特征图相结合。为了提高我们的网络速度，在每次concate拼接之后，使用1×1卷积来降低网络的维数。最后一层提供预测结果，其中包含边界框的位置和目标的类别，最后一层的大小对于4个边界框偏移和1个对象预测为N=Nboxes×（Nclasses+4+1），其中Nboxes是特征图中每个网格的框数(默认为3)，Nclasses是对象类别的数量。

我们通过以下公式计算感受野：

其中，RFk是第k层的感受野，RFk-1是第k-1层的感受野，fk是过滤器的大小，si是第i层的步距。比较下采样4次的网络和下采样3次且使用两个空洞卷积的网络之间的感受野，结果如表3所示。使用两个空洞卷积，下采样3次的网络与下采样4次的网络具有相同的感受野(RF)，说明扩张卷积能有效地扩大感受野。

为了提高网络的速度和效率，我们在每次concat拼接后使用1×1卷积来降低模型的维数。由于小目标的小偏差比大目标的小偏差更重要，因此位置信息对小目标检测非常重要。为了获得更细粒度的信息，如位置，我们使用passthrough层将早期层的特征与深层的特征合并。