解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题-CSDN博客

本文链接：https://blog.csdn.net/gzq0723/article/details/133968388

本文介绍了一种基于Yolov8的飞机实时目标检测方法，通过迁移学习和对小目标及复杂环境的适应，提升了模型在飞行物体检测上的性能。研究者通过在不同数据集上的训练和优化，实现了高精度和快速的检测，旨在应对无人机恶意使用和机场安全问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

最近在arXiv中翻阅到一遍基于Yolov8的飞机实时目标检测论文，当时通过研究其中的一些相关算法，并应用到实际场景。一个可用于迁移学习和进一步研究的飞行物体实时检测的广义模型，以及一个可供实施的精化模型。

前景概要

目前目标检测算法已经是非常成熟的一个领域成果物，而且到目前为止，已经有数不胜数的检测算法公开于世，尤其是Yolo系列，是目前市场中最常见的baseline。在项目中，也有遇到一些小目标检测，尤其该目标是物体空间大小或纵横比、速度、遮挡、杂乱背景等变化，造成目标检测不到，误检、漏检等现象。

通过大量阅读文献以及研究，发现有些方法还是在一定基础上提升效果，满足实际场景需求。

通过在包含40个不同类别飞行物体的数据集上训练第一个（广义）模型来实现这一点，迫使模型提取抽象特征表示。然后，我们在更能代表真实环境的数据集（即更高的遮挡率、较小的空间大小、旋转等）上使用这些学习到的参数进行迁移学习，以生成我们的精细模型。飞行物体的目标检测仍然具有挑战性，这是由于物体空间大小/纵横比、速度、遮挡和聚集背景的变化较大。

背景前要

最近看新闻发现国外，发生的许多事件表明了无人机的恶意使用。在过去的几个月里，有报道称，走私者试图通过携带小型爆炸物的无人机进行暗杀，向州立监狱运送毒品，并监视美国边境巡逻队等一些其他消息。虽然研究表明，无人机的使用预计将呈指数级增长，但检测技术尚未提供可靠准确的结果。无人机和小型无人机具有隐身能力，由于其电磁信号小，可以避免被大多数现代雷达系统探测。它们体积小，机动性强，噪音低。这一点，加上访问的便利性，为无人机继续成为现代战争和非法活动的组成部分提供了自然的激励。

【跑到出现坑洼段】

还有就是在机场中，很多无人机、或则天空中的鸟类以及跑到上出现的异物，都会影响飞机正常的起飞。通过在塔楼或其他建筑上投放使用AI目标检测应用，可以在一定程度上大量减少人力的投入，以及高效率护航飞机起飞落地！

【通过人力搜索清楚】

目前，虽然已经提出了无线电和声学检测等方法作为解决方案，但目前已知它们是不准确的。这促使在任何这样的检测系统中集成视觉检测器。我们现在可以通过数字塔实现实时物体检测，以监控人员和机动车辆，但目前还不知道是否能实现无人机和小飞行物体检测。

在这种环境中的探测是具有挑战性的，因为从杂乱的沙漠背景和距离进行探测。物体距离塔楼越远，检测和分类就越困难，因为物体在输入空间向模型传递的信号就越少。

新算法研究

为了解决所提出的一些挑战，同时最大限度地提高性能，我们利用当前最先进的YOLOv8，试图在推理速度和mAP之间找到最佳折衷。虽然YOLOv8被认为是最新的技术，但尚未提供官方文件。

因此，我们对YOLOv8所适应的新架构和功能进行了深入的解释。最终的广义模型实现了0.685的mAP50-95和50 fps的1080p视频的平均推理速度。最终改进的模型保持了这种推理速度，并实现了0.835的改进mAP50-95。

模型选择和评估

我们评估了模型的小型、中型和大型版本，以确定推理速度和mAP50-95之间的最佳折衷，然后优化超参数。小型、中型和大型模型分别具有（11151080、25879480和43660680）参数和（225、295和365）层。在训练模型后，我们发现小型和中型模型之间的mAP50-95显著增加（0.05），但中型和大型模型之间的delta不多（0.002）。我们还发现，在验证集上，小型、中型和大型分别在4.1、5.7和9.3毫秒时推断。然而，我们最初的目标是在1080p的情况下达到30到60帧之间的平均推理速度。当在多个1080p高清视频上测试中等大小的模型时，我们观察到19.75毫秒（每秒50帧）的平均总速度（处理前速度（0.5毫秒）+推理速度（17.25毫秒）+处理后速度（2毫秒）），这与我们的主要目标一致。

这导致我们选择中等尺寸的模型来开始调整超参数。由于缺乏计算资源，我们为每组超参数评估10个epoch，作为额外时期潜在性能的指标。我们观察到，这一假设是正确的，因为与默认的超参数（0.027）相比，使用最优超参数集的训练在epoch 100处实现了更好的性能我们基于验证mAP50-95选择最佳超参数，批量为16，随机梯度下降（SGD），动量为0.937，权重衰减为0.01，分类损失权重λcls=1，box损失权重λbox=5.5，分布焦点损失权重λdfl=2.5。经过163个epoch的训练，我们在1080p视频上获得了0.685的mAP50-95和50 fps的平均推理速度。

实战和可视化

在网上搜索了F-14和F-18战斗机，并可视化了特征激活地。从左到右，展示了CSPDarkNet53主干的四个阶段。

通用模型也对一些数据进行了检测，效果如下图：

然后通过迁移学习的精细模型，效果如下：

传统算法实际检测结果

优化后实际检测结果

如果将精度模型用于近距离飞机或其他飞行物的检测，效果不是特别友好了，所以后续还是要结合之前的算法，增量迭代优化更鲁邦的算法。下面是从网上下载的某机场飞机起飞全过程的实时检测结果：

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！