研究背景与动机
小目标检测在无人机航拍、交通监控等场景中具有重要意义,但由于目标像素少、背景复杂、拍摄角度多样等原因,检测难度较大。现有的大规模模型虽然准确率高,但推理速度慢,难以在边缘设备上实时部署;而轻量级模型则往往检测精度不足。因此,如何在低计算资源约束下实现高效、准确的小目标检测是一个亟待解决的问题。
研究方法
本文基于 YOLOv8 提出了一种轻量级小目标检测模型 FDM-YOLO,主要改进包括:
-
改进检测头设计:增加一个高分辨率检测层(4倍下采样),移除大目标检测层,以更好地利用高分辨率空间细节,提升小目标检测能力。
-
引入 Fast-C2f 结构:基于 PConv(部分卷积)设计轻量级网络模块 Fast-C2f,集成到模型的 PAN 模块中,显著减少模型参数和计算量。
-
动态上采样方法(Dysample):相比传统静态上采样方法,动态上采样能够根据数据集特性自适应调整,进一步优化检测性能。
-
EMA 注意力机制:引入轻量级 EMA(Efficient Multi-scale Attention)注意力机制,增强特征融合能力,提升模型对小目标的检测精度。
实验结果
实验在 VisDrone 数据集上进行,结果表明:
-
性能提升:与 YOLOv8s 相比,FDM-YOLO 在参数数量减少 38% 的情况下,mAP0.5 从 38.4% 提升到 42.5%,同时推理速度几乎保持不变。
-
消融研究:通过逐步引入改进措施,验证了每项改进对模型性能的贡献。例如,增加小目标检测层后 mAP0.5 提升到 43.6%,移除大目标检测层后性能保持不变,而 Fast-C2f、动态上采样和 EMA 的引入进一步优化了模型性能。
-
与其他 SOTA 模型对比:FDM-YOLO 在小目标检测的准确率、参数数量和推理速度上均优于 YOLOv5、YOLOv6 等常见模型,展现出良好的性能平衡。
研究结论
FDM-YOLO 在低计算资源场景下实现了高效、准确的小目标检测,通过轻量化设计和注意力机制的引入,在减少模型参数和计算量的同时,显著提升了检测精度,适用于无人机交通监控等实际应用场景。
关键贡献
-
提出了一种基于 YOLOv8 的轻量级小目标检测模型 FDM-YOLO。
-
通过改进检测头、引入 Fast-C2f 结构、动态上采样和 EMA 注意力机制,实现了模型的轻量化与性能提升。
-
在 VisDrone 数据集上验证了模型的有效性,证明了其在低计算资源场景下的优势。
论文为无人机航拍、交通监控等场景中的小目标检测提供了一种高效、轻量化的解决方案,具有重要的实际应用价值。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
小目标的检测尤其困难,因为它们像素数量少、背景复杂且拍摄角度多样,这使得模型难以提取有效的特征。尽管一些大规模模型能够提供高准确率,但它们较长的推理时间使其不适合在边缘设备上实现实时部署。另一方面,为低计算能力设计的模型往往检测精度较差。本文专注于小目标检测,并探索在低计算约束下的目标检测方法。我们在 YOLOv8 模型的基础上,提出了一个新的网络架构,名为 FDM-YOLO。我们的研究包括以下关键贡献:通过分析 YOLOv8 检测头的输出,我们引入了 FDM-YOLO。我们增加了一个高分辨率层,并移除了大目标检测层,以更好地处理小目标。基于 PConv,我们提出了一个名为 Fast-C2f 的轻量级网络结构,并将其集成到模型的 PAN 模块中。为了缓解模型轻量化导致的精度损失,我们采用了动态上采样(Dysample)和轻量级 EMA 注意力机制。FDM-YOLO 模型在 Visdrone 数据集上进行了验证,参数数量减少了 38%,同时将 Map0.5 分数从 38.4% 提高到 42.5%,并且几乎保持了相同的推理速度。这证明了我们的方法在平衡准确性和效率以实现边缘设备部署方面的有效性。
一、引言
在计算机视觉领域,目标检测在众多领域中起着关键作用,例如自动驾驶车辆 [1]、交通场景监控 [2]、智能驾驶系统增强 [3] 以及搜索和救援行动辅助 [4]。精确识别行人、汽车、摩托车、自行车、交通标志和信号灯等小目标是自动驾驶车辆和智能驾驶系统安全导航和决策的基础 [5]。此外,识别小目标有助于更好地管理交通流量、保护行人以及全面分析交通场景。这种能力对于城市规划和交通网络的改进至关重要 [4]。
在图像中检测小目标存在显著挑战,因为它们的空间覆盖范围有限、分辨率较低,且与大目标相比缺乏明显的视觉特征。在网络架构如 YOLOv8 [6] 中,浅层可能会无意中丢弃识别这些小目标所需的关键空间信息,导致数据丢失。此外,在特征提取过程中,小目标可能会被大目标主导,可能导致精确检测所需的重要细节丢失。解决这些问题对于提高目标检测在实际应用中的准确性和可靠性至关重要。
随着无人机生产成本的降低和飞行控制技术的进步,这些小巧灵活的设备越来越多地被用于智能交通监控。无人机通常在较高高度运行,以捕捉更广阔的视野,但这种增加的距离会降低地面目标的表观大小。这种距离增加了在捕获图像中进行目标检测的复杂性。尽管目标检测取得了显著进展,但在城市交通中检测行人、摩托车、自行车和车辆等小目标仍然具有挑战性,因为它们的大小不一、形状多样且背景杂乱。当使用有限的硬件资源进行计算机视觉和目标检测任务时,这种挑战变得更加突出。在检测性能和模型大小之间取得平衡是一个需要解决的关键挑战。
为了应对无人机航拍和交通场景中小目标检测的挑战,并优化部署性能,我们基于 YOLOv8 开发了一种新型模型。我们扩展了 PAN(路径聚合网络)的长度,并增加了一个额外的检测头,同时移除了大检测头,旨在更有效地利用高分辨率空间细节,同时保持性能平衡。此外,我们将 Pconv [8] 方法集成到 C2f 模块中,以进一步减少部署过程中的性能开销。
此外,我们将 EMA [9](高效多尺度注意力)机制和动态上采样方法引入到 PAN [10] 中。
本文的结构如下:第二部分回顾相关文献和研究工作。第三部分详细阐述了对 YOLOv8 的改进。第四部分描述了实验方法并对结果进行了分析。
二、相关工作
2014 年出现的 R-CNN 是一种基于深度学习的两阶段目标检测算法。该算法将目标检测建模为两个步骤:首先,生成候选区域,其次,对每个候选区域进行分类和回归操作。它使用 SVM 分类来确定一个区域是否包含特定目标,并通过回归获得目标边界框的具体位置。Fast-RCNN 通过允许每个候选区域共享相同的神经网络,显著优化了算法的时间效率。Faster-RCNN [11] 进一步优化了候选区域生成算法,提出了 RPN 网络架构。RPN 消除了算法依赖于传统基于特征的选择性搜索来生成候选区域的需要。2018 年,Cascade RCNN [12] 采用了级联检测机制,逐步增加 IOU 阈值,使模型能够在每一步提供更准确的预测。FPN 网络引入了特征金字塔,对不同层级的特征进行不同处理,从而提高了模型检测多尺度目标的能力。
由于两阶段算法将目标检测建模为先生成候选区域,然后进行分类和回归的方法,每个步骤都需要独立的计算资源,导致两阶段算法的时间较长。这种方法在早期阶段通常能够实现更高的准确率,但检测速度较慢。相比之下,YOLO 算法是一种单阶段目标检测算法。YOLO 直接将整个检测任务建模为一个回归问题,在对每张图像进行划分后,直接预测图像的边界框和类别概率,从而满足实时性能要求。
YOLO 算法直接将图像划分为网格,并为每个网格预测一定数量的边界框和置信度分数。早期版本的 YOLO 准确率较低,对小目标的敏感度不足。YOLOv2 通过引入 Anchor 机制增强了对小目标的检测能力 [13],并支持多尺度训练和 Batch Norm 等先进技术。YOLOv3 通过使用多尺度预测头进一步提高了对小目标的检测能力。2020 年 4 月,YOLOv4 [14] 采用了增强型架构,集成了 bag-of-specials,并使用 bag-of-freebies 等先进的训练方法。为了增强模型的鲁棒性,它对输入图像进行对抗性攻击,并使用遗传算法进行超参数优化。该模型在 COCO 数据集 [15] 上实现了 43.5% 的平均精度均值和 65.7% 的 AP50。YOLOv5 使用了更新的训练策略,包括 Mosaic 和 Cutmix。2022 年 6 月,美团技术团队推出了 YOLOv6,它采用了 EfficientRep 以实现更高效的网络结构。在部署方面,YOLOv6 [16] 还使用了参数重归一化技术,以加速模型在部署阶段的使用。
随着 YOLO 系列的不断改进,YOLO 算法的准确率也在提高。YOLOv7 [17] 采用了扩展型高效层聚合网络(E-ELAN)。通过控制最短和最长梯度路径,它允许更深层的模型更有效地学习和收敛。YOLOv7 提出了一种基于串联模型的新缩放策略,其中块的深度和宽度按相同的比例进行缩放,以保持模型的最佳结构。
YOLOv8 的骨干网络采用了 C2F 架构。如今,YOLO 系列仍在不断更新 [18]。在通用目标检测 COCO 数据集上,YOLO 系列的较大版本已经实现了高准确率。
目标检测的另一个热门研究方向是 DETR,它将 Transformer 引入目标检测任务。这种方法不需要非最大抑制的后处理或引入先验知识 Anchors。它预测固定数量的边界框,并将标签定义为固定数量,使用匈牙利算法在预测集和标签集之间完成二分图匹配以完成检测。这种方法在大目标上表现良好,但在小目标上表现不佳。
朱某提出了可变形注意力机制和迭代边界框校正方法,以优化检测结果 [19]。汪某 [20] 提出了一种基于先验知识的基于锚点的查询方法,提高了模型性能。然而,DETR 模型的训练并不容易收敛,尤其是在小目标数据集上,数据量通常不足。
Efficient DETR [21] 分析了各种模型初始化方法,并结合了集合预测和密集检测的特点,加快了模型训练速度。李 [22] 通过将噪声目标查询作为额外的解码器输入,减少了 DETR 中二分图匹配机制的不稳定性,提出了 DN-DETR。DINO [23] 提出了一种混合目标查询选择方法用于锚点初始化,并采用双前向传播机制进行边界框预测,提供了对比去噪模块,并增加了额外的 DN 损失,这进一步提高了对小目标的检测能力和实时性能。
尽管 DETR 系列模型的准确率很高,但其实时性能较差。为了便于部署,Lite DETR [24] 通过关键感知可变形注意力机制减少了模型的复杂性,但计算负担本身并未减少。RT-DETR [25] 利用 Vit [26] 高效处理多尺度特征,通过解耦内尺度交互和跨尺度融合,实现了实时性能和高准确率的平衡。
除了基本模型架构外,还有许多小目标检测策略。在损失函数方面,文献 [27] 提出了反馈驱动损失,通过增加小目标在定位损失中的权重来实现。文献 [28] 认为基于 IOU 的损失对小目标匹配不公平,将边界框建模为高斯分布,使用 Wasserstein 距离为小目标提供尺度不变性和更平滑的位置差异处理。
从提高小目标大小的角度来看,一些研究首先在检测前放大图像,使用超分辨率方法来提高检测效果。崔 [29] 集成了超分辨率自监督框架,提出了 AERIS 用于端到端融合方法。多模态方法也已用于目标检测研究。文献 [30] 研究了 RGB 和热成像相机的多模态目标检测,提出了基于贝叶斯规则和独立性假设的不同模态信息的概率融合策略。文献 [31] 提出了一种基于滑动窗口的目标检测方法,将图像划分为块进行顺序检测,然后将它们合并,合并后的结果远优于独立检测。
尽管现有研究取得了进展,但小目标检测方法在无人机航拍和交通场景中仍面临挑战。很难平衡大量模型的准确性、实时性能和参数数量。受部分卷积的启发,我们构建了一个轻量级的 Fast-c2f 结构。此外,引入了 EMA 注意力机制,重新分配特征权重以增强特征提取。与其他注意力机制不同,它克服了忽略空间细节相互作用和 1x1 卷积核有限感受野的局限性,这些局限性限制了局部跨通道相互作用和上下文信息建模。此外,通过使用动态上采样方法提高了模型的准确率。
三、方法
在本节中,我们将探讨如何基于 YOLOv8 增强网络架构。这种升级后的网络显著提高了检测小目标的能力,同时将模型的参数数量减少了 40%。重要的是,它没有明显增加推理延迟或额外开销,使其非常适合在低计算环境中检测小目标。这个模型被称为 FDM-YOLO。
图 1 展示了我们的网络架构。主要改进包括:1)优化检测头的设计,2)在模型的 PAN 部分引入轻量级 Fast-C2f 结构,3)使用动态上采样,4)引入 EMA 注意力机制进行特征融合。
A. 改进检测头
在原始的 YOLOv8 中,最小目标检测层的输出维度为(256, 80, 80),这是原始图像的 8 倍下采样。这种程度的下采样对于检测小目标来说相当显著。为了增强我们模型检测更小目标的能力,我们扩展了 PAN 和 FPN 的长度,并增加了一个下采样率为 4 倍的新检测层。为了保持性能平衡,我们移除了最大的检测层。
B. Fast-C2f
轻量级部署一直是研究人员追求的效果。自 ResNet 问世以来,模型通过残差连接缓解了梯度消失问题,从而能够构建越来越深的网络架构 [30]。然而,网络结构的加深不利于模型部署。轻量级卷积的使用也越来越受到研究人员的关注。在本文中,我们将轻量级卷积 PConv [46] 引入 YOLOv8,以实现轻量化并减少模型参数数量。
图 2 展示了 Pconv 的计算方法,它根据给定的缩放因子将输入特征图分割。一部分卷积使用标准卷积方法进行操作,而另一部分则直接复制。这两部分的连接作为最终输出。这种方法显著减少了计算负载和内存访问量。在计算负载方面,假设输出特征图的维度为 C×H×W,普通卷积的计算负载如下:
FLOPs(Conv) = C × H × W × K × K × C
在上述公式中,K 代表卷积核的大小。在 Pconv 中,计算负载取决于卷积因子 Cp,其算法复杂度为:
FLOPs(Pconv) = Cp × H × W × K × K × Cp
Cp 通常定义为 0.25C。因此,总体计算负载减少了十六分之一。在上述计算中,省略了加法运算。
通过将 Pconv 与 1x1 卷积串联组合,我们可以构建一个 Fast-block,然后将其应用于 C2f 架构中,创建 FastC2f 模块。
在神经网络中,骨干网络主要用于提取核心特征。为了防止重要特征的丢失,Fast-C2f 并未应用于骨干网络。然而,在模型的特征融合阶段,它被用于实现更轻量化的模型。
C. 动态上采样
在 YOLO 系列中,统一使用最近邻插值方法进行上采样。另一种方法是双线性插值,它通过使用周围四个像素的颜色值的加权平均来估计新像素值,权重是新像素与周围四个像素之间的相对距离。除了这些经典上采样方法外,立方插值等常见方法也用于上采样。
然而,传统方法是静态上采样方法,即给定一个规则并将其统一应用于所有数据集。实际上,不同数据集之间可能存在固有差异。上采样方法应该具有动态性。
本文利用文献 [48] 中提出的 Dysample 方法优化 YOLOv8 目标检测模型。
D. 添加 EMA 注意力机制
注意力机制是神经网络中一种普遍的技术,灵感来源于人类视觉注意力。在处理信息时,人类不会关注每一个细节,而是会自动选择性地集中在某些部分。对于输入特征图,让模型能够动态地为不同部分分配不同的权重至关重要,从而使模型能够增强对重要特征的识别。
EMA 方法具有跨通道交互和跨空间学习的双重能力,与传统注意力方法相比,它在性能和效率方面更为高效。以下是 EMA 注意力的计算过程。
图 4 展示了 EMA 注意力的计算过程。
假设 T 是输入特征图,EMA 沿通道维度进行平均分组。我们将 T 命名为 [T1, ..., Tn],然后对每个片段进行并行计算操作。每个片段同时进行三个操作:第一个是沿 x 轴的平均池化,第二个是沿 y 轴的平均池化,第三个是常规卷积操作。
前两部分通过张量连接,然后进行 1x1 卷积,之后进行分割。通过 Sigmoid 函数后,得到空间注意力分数。然后将原始输入与这些分数相乘,完成第一部分的计算。
上述过程完成了空间注意力的计算。随后,重新加权的 Ti 和计算出的 Gi 沿通道维度依次进行池化和 softmax 操作,以获得通道维度的注意力权重。Ti 的注意力分数与 Gi 相乘,Gi 的注意力分数与 Ti 相乘。将这两个结果相加,然后通过 Sigmoid 函数,成为最终的注意力分数。这些注意力分数与原始结果的乘积,在通道维度变化后,构成了 EMA 的计算结果。
YOLOv8 的原始版本没有选择使用注意力机制,我们将其单独集成到检测头层中。这种集成以较低的成本实现了,以提高检测精度。添加方法如附图所示。
图 5 展示了检测头的改进。
四、实验
本节首先概述用于评估实时目标检测模型性能的指标,随后介绍用于测试的数据集,接着详细说明实验设置和训练策略。本研究以 YOLOv8 为基准,依次验证每项创新对模型的影响。此外,模型还与其他常见的一流(SOTA)方法进行了比较。此外,本节还包括对模型性能的评估和相关讨论。
A. 评估指标
为了评估我们改进模型的检测性能,我们使用了几个关键指标:精确率、召回率、mAP0.5、mAP0.5:0.95 和模型参数数量。本节概述了这些指标的详细公式。
精确率:衡量正确预测为正实例(TP)在所有预测为正的实例中(TP 和 FP 之和)的比例。精确率的公式如下:
Precision = TP / (TP + FP)
召回率:计算正确识别的正样本相对于实际正样本总数的比例,公式如下:
Recall = TP / (TP + FN)
平均精度(AP):表示精确率-召回率曲线下的面积,计算公式如下:
AP = ∫ Precision(Recall)d(Recall)
平均精度均值(mAP):表示所有类别平均精度(AP)值的均值,反映了模型在整个数据集上的综合检测性能。计算公式如下:
mAP = (1/N) ∑ APi
其中,APi 表示类别索引为 i 的平均精度值,N 表示数据集中的总类别数。
mAP0.5:在交并比(IoU)阈值设置为 0.5 的情况下计算的平均精度。
mAP0.5:0.95:指在 IoU 阈值从 0.5 到 0.95(步长为 0.05)范围内计算 mAP,然后提供最终的平均值。
B. 数据集
VisDrone2019 数据集是由天津大学机器学习与数据挖掘实验室和 AISKYEYE 数据挖掘团队共同开发的一个重要的无人机航拍图像集合。该数据集包含 288 个视频片段,总计 261,908 帧和 10,209 张静态图像。这些图像是由安装在中国多个城市的各种无人机上的相机拍摄的,涵盖了丰富的场景。该数据集非常丰富,覆盖了广泛的地理位置、环境背景和目标类型。从地理上看,它包括中国 14 个不同城市的图像,涵盖了从城市到农村的多样化景观。
数据集涵盖了多种目标类型,如行人、汽车、自行车等。此外,数据集还包含了不同人口密度区域的图像,从稀疏到密集的拥挤区域,并且在不同的光照条件下拍摄,包括白天和夜间场景。VisDrone2019 数据集的一个显著特点是其包含了大量的小目标,这些目标在不同角度和多样化场景中以不同大小呈现。这种多样性使得该数据集比其他计算机视觉数据集更加复杂和具有挑战性。
C. 消融研究
为了便于记录比较实验,我们为具有各种改进的模型分配了以下命名约定:YOLOv8s 作为基础模型,标记为模型 ID 1。直接增加小目标检测头的模型标记为模型 ID 2。模型 ID 3 是从模型 2 派生的,通过移除大目标检测层以平衡性能。模型 ID 4 基于模型 3,引入了 Fast-C2f 结构。模型 ID 5 是模型 4 的改进,采用了增强的上采样方法。模型 ID 6 是从模型 5 派生的,增加了 EMA 注意力机制。
在本研究中,YOLOv8s 被选为基准模型进行进一步改进。模型在 VisDrone 数据集上进行训练,使用 NVIDIA RTX 4090 GPU(24 GB)在 Linux 系统上运行,采用 PyTorch 1.13 和 CUDA 11.6。实验主要依赖 Ultralytics 库,版本 8.3.18,Python 环境为 3.9.13。训练涉及优化关键参数,运行 200 个周期,使用随机梯度下降(SGD)优化器,动量设置为 0.937。初始学习率设置为 0.01,并通过 warm-up 和余弦退火策略动态调整学习率。选择 16 的批量大小以实现高效的内存使用和稳定的训练,输入图像调整为 640×640 像素。还应用了 0.0005 的权重衰减,以防止过拟合并提高模型的泛化能力。
图 6 展示了随着训练周期的增加,模型 mAP 的变化。从图中可以看出,所有模型都已收敛。
表 1:不同改进在 VisDrone 验证集上的准确率性能
模型 ID | P | R | mAP0.5 |
---|---|---|---|
1 (YOLOv8s) | 0.490 | 0.376 | 0.384 |
2 (增加小目标层) | 0.539 | 0.413 | 0.436 |
3 (移除大目标层) | 0.530 | 0.424 | 0.436 |
4 (增加 Fast-C2f) | 0.528 | 0.405 | 0.416 |
5 (动态上采样) | 0.528 | 0.408 | 0.423 |
6 (增加 EMA) | 0.519 | 0.413 | 0.425 |
模型 1 作为基线方法,模型的准确率最低。通过引入小目标检测层,整体准确率提高到 43.6%。模型 3 表明移除大目标检测层对检测性能没有影响,可以在不牺牲性能的情况下提升速度。模型 4 在模型 3 的基础上引入了 PConv,导致 mAP 性能略有下降,这是为了实现更轻量化的模型而做出的权衡。模型 5 和模型 6 中增加的策略被证明是有益的,因为它们有助于在验证集上提高 mAP0.5。
我们使用精确率、召回率和 mAP0.5 评估所提改进的准确率,并根据参数数量和计算复杂度评估模型的部署优势。表 1 展示了与模型准确率相关的结果,而表 2 展示了与部署相关的结果。所有比较均来自所提出的改进。
表 2:不同模型改进的参数和 GFLOPS
模型 ID | 参数数量 | GFLOPS |
---|---|---|
1 (YOLOv8s) | 11,129,454 | 28.5 |
2 (增加小目标层) | 10,629,048 | 36.7 |
3 (移除大目标层) | 7,402,734 | 34.1 |
4 (增加 Fast-C2f) | 6,841,070 | 30.7 |
5 (动态上采样) | 6,869,838 | 30.7 |
6 (增加 EMA) | 6,870,734 | 31.0 |
综合考虑表 1 和表 2,可以得出结论:FDM-YOLO 在部署便利性和推理性能之间实现了良好的平衡。与基线模型相比,FDM-YOLO 只增加了极小的计算负担,同时将参数数量减少了 40%,并且在 mAP@0.5 上提高了 4 个百分点。
我们还将 FDM-YOLO 与其他常见的一流(SOTA)模型进行了比较。所有实验均采用相同的训练策略,输入图像大小设置为 640 像素。YOLO 系列包含多种尺寸的模型,所有测试均使用与 YOLOv8s 类似的模型尺寸。
表 3:其他 SOTA 模型在 VisDrone 验证集上的准确率性能
模型名称 | P | R | mAP0.5 |
---|---|---|---|
YOLOv5 | 0.488 | 0.373 | 0.380 |
YOLOv6 | 0.479 | 0.356 | 0.364 |
YOLOv8 | 0.490 | 0.376 | 0.384 |
YOLOv9 | 0.499 | 0.388 | 0.393 |
YOLOv10 | 0.491 | 0.370 | 0.381 |
YOLOv11 | 0.507 | 0.377 | 0.386 |
RT-DETR | 0.432 | 0.247 | 0.221 |
FDM-YOLO | 0.519 | 0.413 | 0.425 |
表 3 表明,在推理准确率方面,我们提出的方法在小目标检测方面实现了最佳的整体性能。
表 4:FDM-YOLO 与其他模型的推理性能比较
模型名称 | 参数数量 | 时间/ms |
---|---|---|
YOLOv5 | 9,115,406 | 6.9 |
YOLOv6 | 16,299,374 | 6.3 |
YOLOv8 | 11,129,454 | 5.0 |
YOLOv9 | 7,170,958 | 9.8 |
YOLOv10 | 8,042,700 | 9.0 |
YOLOv11 | 9,416,670 | 5.0 |
RT-DETR | 32,004,290 | 12.2 |
FDM-YOLO | 6,870,734 | 6.3 |
表 4 中的参数主要关注模型的轻量化部署。如表所示,我们的模型具有最小的参数数量。此外,在推理速度方面,FDM-YOLO 表现出强大的竞争力。总体而言,FDM-YOLO 实现了高推理准确率、快速推理速度和低参数数量的优势,使其成为低计算场景中小目标检测的强大模型。
D. 可视化
在本节中,我们展示了 FDM-YOLOv8 在低计算场景中小目标检测的可视化结果,突出了其相对于基线 YOLOv8 模型的优势。本节中使用的所有图像均来自 VisDrone 数据集的测试集。
在目标较少的场景中,特别是在简单且常见的小目标检测结果中,我们将原始图像、YOLOV8s 检测后的图像以及 FDM-YOLO 检测后的图像依次进行了拼接和比较,如图所示。
图 7 展示了在简单场景中 YOLOV8s(中间)和 FDM-YOLO(底部)的比较。
在整体图像的左侧,YOLOV8s 模型未能检测到底部右角的卡车,而 FDM-YOLO 成功识别了它。在图像的中间部分,有一个非常小的目标被 YOLOV8s 漏检,但 FDM-YOLO 成功检测到了它。
对于右侧的简单图像,有两个微小的汽车目标位于图像的上中部。这两个目标被 YOLOV8s 漏检,然而 FDM-YOLO 模型成功捕获了这些小目标的类别和位置信息。
图 8 展示了在密集检测场景中 YOLOV8 和 FDM-YOLO 的检测性能比较。在左侧图像中,可以观察到 YOLOV8 模型未能检测到图像最远端的小目标。FDM-YOLO 有效缓解了这一问题,尽管最远端的目标仍未被检测到。在图像的下半部分,FDM-YOLO 成功检测到了一个被 YOLOV8 漏掉的行人。对于右侧图像,待检测目标高度集中。FDM-YOLO 模型的检测密度明显高于 YOLOV8。
对于左侧图像,在夜间条件下,FDM-YOLO(底部)的检测密度明显高于 YOLOV8(中间)。在图像的中部,有一些行人未被两种模型成功检测到,但 FDM-YOLO 模型的整体行人检测率更高。对于右侧图像,可以观察到在低光照条件下,YOLOV8 和 FDM-YOLO 均表现出较强的竞争力。然而,YOLOV8 在图像中部的建筑物区域产生了错误检测,而 FDM-YOLO 并未出现如此明显的错误。
五、结论
在交通场景中检测小目标存在显著挑战,这可能会降低整体检测效率。为了解决这些问题,我们提出了 FDM-YOLO,这是一种专为以小目标为主的航拍和交通场景设计的目标检测模型。该模型基于 YOLOv8 构建,专注于小目标检测,增强了特征融合能力,并提高了精确定位性能,而没有显著增加额外的计算开销。
FDM-YOLO 模型在各种评估指标上优于广泛使用的 YOLOv6 和 YOLOv7 等模型。与 YOLOv8s 相比,我们的高效模型显著提高了目标检测性能,而没有大幅增加计算成本或检测时间。它将召回率从 37.6% 提高到 41.3%,精确率从 49.0% 提高到 51.9%,mAP0.5 从 38.0% 提高到 42.5%。即使在光照不足或背景拥挤等挑战性条件下,FDM-YOLO 也能实现更高的 IoU 值,并比 YOLOv8s 检测到更多小目标。这些能力使其非常适合用于无人机交通监控应用。