点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群。
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
冠军奖状

论文信息
文章标题:Multi-Modal UAV Detection, Classification and Tracking Algorithm—Technical Report for CVPR 2024 UG2 Challenge
文章链接: https://arxiv.org/abs/2405.16464
摘要
本技术报告介绍了CVPR 2024 UAV 跟踪与姿态估计挑战赛 UG2+任务的第一个获奖模型。本次挑战赛面临无人机检测、无人机类型分类以及在极端天气条件下使用多模态传感器信息(包括立体视觉、各种激光雷达、雷达和音频阵列)进行二维/三维轨迹估计的难题。利用这些信息,我们提出了一种多模态无人机检测、分类和三维跟踪方法,以实现准确的无人机分类和跟踪。我们提出了一种新的分类流程,该流程结合了序列融合、兴趣区域(ROI)裁剪和关键帧选择。我们的系统集成了前沿的分类技术和复杂的后处理步骤,以提高准确性和鲁棒性。设计的姿态估计流程包含三个模块:动态点分析、多目标跟踪器和轨迹完成技术。大量实验验证了我们方法的有效性和精确性。此外,我们还提出了一种新的数据集预处理方法,并对我们的设计进行了全面的消融研究。最终,我们在 MMUAD 数据集的分类和跟踪中取得了最佳表现。我们的方法的代码和配置可在https://github.com/dtc111111/Multi-Modal-UAV找到。
1.介绍
无人驾驶飞行器(UAVs),通常称为无人机,变得越来越普及,并在运输、摄影和搜索等各个领域发挥了重要作用,给公众带来了可观的利益。然而,小型商业无人机的普及和能力也引入了超出传统范围的多方面安全挑战。
近年来,针对反无人机系统的研究显著增加。尽管如此,大多数现有系统仍然是单模态的。CVPR 2024的UG2+挑战赛旨在推动边界,要求参与者开发一种新的多模态反无人机系统。该挑战涉及联合估计无人机的三维轨迹和识别无人机类型。UG2+竞赛组织者收集了他们自己的数据集:MMAUD数据集。这一挑战的核心在于如何有效利用多模态信息,即使在单一传感器可能无法获取有效信息的困难条件下,也能实现稳健的三维无人机位置估计和无人机类型分类。对于分类任务,关键挑战在于无人机在高空操作或遇到极端视觉条件时,现有方法由于小型无人机尺寸紧凑,导致视觉存在感较小,难以检测到。对于跟踪部分,由于雷达截面减小、激光雷达点云噪声和周围动态物体的干扰,也很难检测和估计小型无人机的三维位置。
为此,我们提出了有效利用各种激光雷达和相机信息的多模态方法。我们的网络分为两部分:分类网络和姿态估计流程。对于分类网络,我们首先对数据集进行预处理和序列化,以实施数据增强,从而应对不利的天气条件。我们提出的三维无人机姿态估计方法利用了激光雷达数据,因为视觉深度信息和雷达数据不可靠。我们设计了一条流程,利用空间密度、运动特征和轨迹平滑度等特征,以无监督的方式补充标签提供的语义信息,而不是直接进行网络训练。总体而言,我们的贡献如下:
1.我们提出了首个用于准确且鲁棒的反无人机系统的多模态无人机分类和三维姿态估计方法。2.引入了一种新的分类流程,结合了序列融合、兴趣区域(ROI)裁剪和关键帧选择等技术。我们的系统集成了先进的分类技术和后处理步骤,以提高准确性和鲁棒性。大量实验验证了我们方法的有效性和精确性。3.提出了一种姿态估计流程,包括动态点分析、多目标跟踪器和轨迹补全技术。大量实验表明我们的系统有效且准确。我们在CVPR 2024的UG2+挑战赛中取得了最佳表现。
2.相关工作
检测与分类: 无人机检测和分类技术随着深度学习方法在各种传感器模式中的集成取得了显著进展。高分辨率范围传感器,如MIMO雷达和激光雷达,直接利用点云进行分类。此外,基于雷达的检测系统利用微多普勒效应通过独特的旋转模式识别无人机。基于视觉的检测系统利用神经网络处理来自相机的视觉数据。YOLO系列模型在边界框分类和回归中表现出高精度。Liu提出了一种使用聚类SVM的增强检测和分类方法,取得了更好的性能。一些方法使用分割方法来提高检测性能。
尽管取得了这些进展,但由于无人机尺寸和动态行为的多样性,仍存在挑战。天气条件、背景噪声和其他无线信号的存在等环境因素可能干扰检测系统。解决这些挑战需要一个传感器融合框架。一些方法估计车辆姿态和形状。一些方法利用多种传感器类型的能力,结合它们的优势以增强无人机检测和分类的稳健性和准确性。例如,整合雷达和视觉数据结合了雷达在恶劣天气条件下穿透的能力与相机提供的高分辨率成像。这种多传感器融合方法已成功应用于各种研究工作中,例如中的研究,显示出比依赖单一传感器的系统更优越的性能。
3D跟踪: 无人机(UA V)的3D跟踪在军事、交通和安全等实际应用中有着各种应用。一些系统整合贝叶斯跟踪框架,采用卡尔曼滤波器和粒子滤波器等技术来保持稳健的跟踪性能。一些方法使用基于学习的方法来提高准确性。比如,Lan等人将稀疏学习方法应用于RGB-T跟踪,从而消除跨模态的差异。Liu等人提出了一种基于均值漂移的方法,利用RGB和深度图像将目标位置转换为3D坐标。此外,先进的数据融合算法的发展,例如利用深度神经网络进行特征提取和决策级融合,已成为显著的进展领域。这些算法能够学习不同传感器数据之间的复杂关系和相关性,从而更全面地理解环境。一些SLAM方法也被用于3D跟踪方法以进一步提高准确性。
此外,基于Transformer的算法用于多目标跟踪可以适应无人机检测场景。这些算法最初来自自然语言处理领域,已经显示出在处理复杂数据关联方面的有效性,并有潜力在多传感器环境中改善无人机的跟踪效果。一些方法使用联合学习方法同时学习无人机的姿态和类型。
3.方法
我们的算法工作流程如下图所示。输入的多模态传感器数据通过两个流程处理:无人机(UAV)类型分类和3D跟踪。UAV类型分类流程主要利用图像数据,而UAV姿态估计流程主要利用激光雷达和雷达数据。在本节中,我们将详细描述这些流程。
3.1UAV型号识别
无人机(UAV)运动的轨迹通常表现出连续性,这有利于利用上下文信息来训练分类器。此外,通过对数据集的检查,我们发现许多序列是更广泛序列的子集,被称为真实序列。此外,我们的分析显示,关于UAV的传感器数据通常表现出稀疏性,高空目标仅有少数像素或点。这一固有的限制显著增加了单帧分类的难度。以前的序列任务通常通过时间轴扩展模型或采用Transformer架构。然而,对于MMAUD数据集,大多数帧如上所述并未提供有效信息。因此,我们采取以下策略来完成分类任务,分为三个步骤:基于特征相似性的序列融合,兴趣区域裁剪,和利用YOLOv9-e选择关键帧,并进行分类和后处理。
3.1.1基于特征相似度的序列融合
我们制定了两个假设来指导构建真实序列。首先,每个真实序列仅包含一个UAV。其次,连续真实序列之间存在显著的时间间隔。
通过观察前景和背景,我们以1/100的比例从原始序列中对数据进行采样。随后,我们利用在ImageNet上预训练的EfficientNet-B7从采样图像中提取特征表示。特征聚合通过对从采样图像提取的表示进行平均来完成。然后,我们从每个原始序列中提取表示特征,计算每个表示的余弦相似度,并应用阈值来分组序列,在训练和测试阶段构建真实序列。
3.1.2基于YOLOv9的ROI裁剪和关键帧选择
在训练阶段,我们使用YOLOv9-e在所有真实序列的图像上进行目标检测,选择飞机类别来获取无人机(UAV)的兴趣区域(ROI),而无需对其进行微调。尽管在零样本结果中可能存在误分类,但这个过程仍然帮助我们自动选择足够的UA V图像来训练分类器。在从检测结果中进行裁剪和重新缩放ROI后,我们另外采用随机抽样过程来减轻训练过程中的类别不平衡(每个真实序列的N≤300)。
在测试阶段,我们同样使用YOLOv9-e以零样本方式检测UAV,并对检测到“airplane”的置信度分数进行排名。理想情况下,我们希望使用检测到最清晰的图像作为整个真实序列的每个图像分类的预测,假设每个序列包含相同类型的UAV。尽管置信度并不直接指示UAV图像的清晰程度,但它反映了模型的信心。因此,我们利用这一指标来识别k个关键帧,并通过汇总这些关键帧的softmax概率来采用软分类策略。
3.1.3分类和后处理
由于只有接近地面(≤10米)且位于摄像头视野中心的UAV才能有效检测,因此训练数据集较小。因此,检测网络应该是轻量级模型。在这里,我们训练EfficientNet-B7来获取初始结果。
在测试阶段,我们对每个真实序列的关键帧应用我们的分类模型,并将每个序列的softmax结果相加以形成软多数投票策略。最后,我们从真实序列中获取数据序列的预测。
3.2UAV位姿估计
在复杂的天气条件和高海拔下追踪无人机(UAV)面临重大挑战。由于远距离处视觉深度信息的不可靠性,我们的姿态估计方法主要利用来自激光雷达和雷达的点云数据。在检查数据集时,显而易见的是,尽管UAV的飞行轨迹表现出很高的多样性,但采集环境仍然相对一致,标注只包括UAV的点注释。因此,我们建议不直接为姿态估计训练神经网络,而是提出了一个管道,以无监督的方式研究空间密度、运动特征、时间一致性和轨迹平滑度等特征,以丰富标签提供的语义细节。我们的姿态估计流程包括三个关键模块:动态点云分析、多目标跟踪模块和轨迹完成。我们的姿态估计框架的流程如下图所示。
3.2.1动态点分析
当无人机(UAV)在较高高度操作时,它们仅构成整体点云的一小部分。直接在这些数据上训练分割网络往往会产生次优结果,例如将所有点都分类为背景。注意到无人机通常在晴空中远离其他物体运行,我们设计了一个两阶段方法来解决这些挑战。首先,我们采用无监督聚类方法对点云数据进行聚类。然后,我们从这些聚类中提取相关的几何和运动特征,以分解动态点。我们动态点分析方法的框架如下图所示。
我们首先积累20帧点云数据形成一个时间窗口。在这个窗口内,我们提取运动特征,例如中心点的速度向量。我们采用时间丢弃(temporal dropout)、时间反转(temporal reverse)和空间旋转等方法增强点云数据。然后,我们提取七维特征。随后,我们设计了一个网络,包括基于注意力的LSTM模块进行时间分析,一个多层感知器(MLP)进行序列分类,以及基于PointNet的模块用于检测到的UAV聚类中心的回归。这种综合方法允许精确跟踪和分类UAV。
与仅仅依赖LSTM模块的最后隐藏状态来封装序列不同,我们整合了一个注意力机制,将所有隐藏状态结合成一个全面的表示。这个机制动态地为每个隐藏状态分配重要性权重,有效地将它们组合成一个加权特征集。通过选择性地突出显示最显著的元素,模型在处理长序列和识别复杂运动模式方面的能力得到了显著增强。
聚类分类使用MLP头部进行,通过UAV姿态标签与估计的聚类中心之间的最近邻关联生成地面真值。为了减少过拟合,我们实施了一系列点云增强技术。这些技术包括全局旋转、时间反转和帧丢弃,通过时空增强提升了模型的鲁棒性。
尽管聚类中心最初可以预测为聚类内部的几何平均值,但诸如点云不完整和数据集中可能存在的与距离相关的测量偏差等问题,要求采用更强大的方法。因此,我们专门为中心回归任务使用了一个额外的MLP。我们的观察表明,在训练数据中,回归误差与聚类中心之间存在很强的相关性。为了解决这个问题,我们开发了一个非线性模型进行偏差校正。具体来说,我们使用一个三阶多项式特征转换器将三维坐标扩展到一个24维特征空间。然后,我们进行线性回归,描绘这些扩展特征与观察到的偏差之间的关系。通过用预测的偏差调整初始估计来确定校正后的聚类中心,从而提高了我们定位的准确性。
3.2.2多目标跟踪
在检测过程中,存在准确率和召回率之间的固有权衡,通常导致结果中既有杂乱物也有漏检。此外,即使进行了校正,预测的聚类中心在稀疏点云中可能表现出蜿蜒曲折的模式。为了解决这些挑战,我们实现了一个多目标跟踪器,帮助过滤杂乱并平滑轨迹。我们使用线性卡尔曼滤波器作为跟踪框架的主干。在这个框架内,新轨迹从未关联的测量开始,并且当其协方差超过预定义的阈值时,现有轨迹终止。这种方法增强了跟踪结果的清晰度和可靠性。
由于我们提出的中心回归模块的有效性,我们在噪声协方差矩阵中设置了较低的对角值。此外,由于在分类模块中我们优先考虑召回率而非准确率,可能会将一些杂乱物错误地分类为UAV。因此,我们将关联阈值设定较低,以确保从检测器中预测的轨迹对可能的杂乱物具有鲁棒性。
3.2.33D轨迹构建及平滑
在删除过程中应用严格的阈值后,估计的轨迹可能会显得片段化。然而,对于姿态估计任务,我们可以访问整个轨迹而不受因果约束。这种访问上下文信息的能力允许更有效地进行轨迹预测和完成,有助于解决漏检和丢失跟踪器的问题。为了增强轨迹的连续性,我们使用了一个三阶自回归(AR)模型进行轨迹完成。该模型利用前三个时间步的数据来预测序列中的下一个步骤,从而提供更一致和连续的轨迹估计。
当面对输入数据中的缺失观测或丢失的跟踪器时,自回归(AR)模型能够利用可用信息生成预测。然而,数据的缺失会引入不确定性,可能影响这些预测的准确性。为了减少这些影响,我们根据测试数据的特定时间戳插值预测的轨迹,并应用平滑技术来增强轨迹的连续性和准确性。
考虑到UAV通常在其路径规划模块中采用样条逼近,我们选择B样条插值进行平滑处理。这种方法特别适合创建平滑而灵活的轨迹,非常适合在操作过程中适应通常遇到的动态条件。这种方法有助于确保即使在存在数据间隙的情况下,轨迹仍然可靠和精确。
B样条插值通过控制点来定义一条平滑的曲线,可以在不同的数据点之间产生连续而光滑的轨迹。它的灵活性使得UAV可以根据实际的飞行需求动态调整其路径,从而提高了飞行路径的适应性和鲁棒性。
4.实验
4.1MMUAD数据集分析
该竞赛基于综合的MMAUD数据集的一个子集。参与者的任务是对四种无人机进行分类:Phantom 4、M300、M30T和Mavic 3,并估计它们的姿态。数据集提供了来自多种传感器的非同步测量数据,包括立体鱼眼摄像头、两种类型的激光雷达(圆锥形3D激光雷达和外周3D激光雷达)以及4D毫米波雷达。在训练阶段,竞赛提供了102个训练序列和16个验证序列,分别持续约20秒和5秒。最终的评估将在包含59个序列的测试集上进行。在这个挑战中,排名基于两个标准:i)与测试集地面真实标签的均方误差(MSE损失)比较,以及ii)测试集中UA V类型的分类准确性。
该数据集采用包含四个传感器的传感器装置,包括:
1.立体鱼眼摄像头: 这些成本低廉的摄像头提供全景180度的视场(FoV),形成一个穹顶形的检测体积,在地平线扫描和为UA V提供广阔覆盖面积方面至关重要。它们的经济性和广阔的视场使其非常适合进行连续监视任务。
2.圆锥形3D激光雷达: 这种朝上安装的激光雷达具有70度的圆锥形视场(FoV),能够在长达300米的距离内检测物体。其圆锥形扫描模式与鱼眼摄像头互补,专注于中心区域,并扩展了超出视觉能力范围的检测距离,确保远处的无人机能够被捕捉到。
3外围式3D激光雷达: 这款激光雷达具有360度水平和59度垂直视场(FoV),在地面层面提供全面的外围覆盖,有效地在70米范围内检测附近的威胁。它与圆锥形激光雷达协同工作,确保检测系统没有盲区,覆盖近距离和远距离的目标。
4.毫米波雷达: 该雷达工作频率为77GHz,具有120度水平和30度垂直视场(FoV),能够在长达350米的距离内感知运动物体。雷达特别擅长检测运动,因此能够跟踪无人机的轨迹,并且对光照或天气等环境条件的影响较小。
这些传感器的组合扩展了感知视场。立体鱼眼摄像头提供广泛的态势感知,圆锥形和外围式激光雷达在不同距离提供详细的检测信息。毫米波雷达增强了系统在长距离范围内跟踪移动目标的能力。这个数据集的主要挑战在于有效地利用四种类型传感器的互补信息,实现稳健的感知能力。
在下图中,我们展示了四种类型的无人机在三个不同高度(5米、10米、20米)的示例图像。在低高度时,无人机在5米处可以清晰识别,具备用于分类的明确细节。然而,在超过20米的高度,无人机变成了点目标,甚至变得不可观测,这使得视觉分类变得困难。
下图强调了一些低高度视觉检测中的挑战情况,包括颜色相似性、运动模糊、太阳耀光、小物体、不完整物体以及鱼眼摄像头的边缘失真
在下图中,我们展示了一些点云测量的示例序列。在图(a)中,我们观察到锥形激光雷达和毫米波雷达的测量共存。然而,显而易见的是,与稀疏不一致的毫米波雷达相比,锥形激光雷达产生了更高质量的点云。在图(b)中,我们注意到UA V穿越两个激光雷达的视野。在图(c)中,我们观察到由于分辨率不足而导致的高空位置偏差。这些挑战激发了我们设计的融合姿态估计管道。
4.2实验结果
我们展示了我们系统在测试数据集上的3D姿态估计性能和UA V类型分类性能。从表1可以看出,我们在3D跟踪和UAV类型分类方面取得了最佳表现。我们的UAV分类方法成功地跨序列融合信息,利用软投票策略准确地识别类型
至于基于点云的UAV检测器,在验证集上的准确率为0.9998,召回率为0.9184。对于中心回归任务,均方误差(MSE)从0.27降低到0.05。这些结果表明,我们的轻量级检测框架能够成功检测UA V并预测集群中心。下图展示了测试序列的检测结果。我们可以看到存在一些嘈杂的检测和漏检的轨迹。在应用多目标跟踪器后,嘈杂的检测被过滤掉,轨迹被平滑处理,如红色曲线所示。最后,漏检的轨迹通过上下文信息插值处理,如蓝色轨迹所示。如上表所示,测试数据集上的姿态均方误差为2.21。验证集与测试集之间的性能差距主要是由于外推误差导致的,即检测器在初始或结束阶段漏检了轨迹过长的情况。在这些情况下,上下文信息不足以推断轨迹,从而积累误差并导致较大的误差。未来的工作中,我们将在整个框架中引入数据驱动的预测模块来解决这一限制。
5.结论
总结,我们提出了第一个多模态反无人机系统,实现了精确的3D无人机追踪和无人机类型分类。多模态数据集预处理和顺序方法显著提升了分类性能。所提出的追踪模块结合动态点分析、多头追踪和3D轨迹预测进一步提高了无人机追踪的准确性。因此,我们最终在CVPR 2024年的Ug2+挑战中获得了第一名。我们希望我们的系统能为涉及多模态反无人机系统的专业人士提供新的见解和思路。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~