Dogfight ：从无人机视频中检测无人机

最新推荐文章于 2025-03-23 00:30:55 发布

AngelinaRan

最新推荐文章于 2025-03-23 00:30:55 发布

阅读量1.3k

点赞数 1

分类专栏：目标检测文章标签：无人机音视频论文阅读人工智能

原文链接：http://arxiv.org/abs/2103.17242

版权

目标检测专栏收录该内容

7 篇文章

订阅专栏

摘要

随着机载车辆变得越来越自主和无处不在，发展探测周围物体的能力变得至关重要。本文试图解决从其他飞行无人机中探测到无人机的问题。源无人机和目标无人机的不稳定运动、小尺寸、任意形状、大强度变化和遮挡使这个问题相当具有挑战性。在这种情况下，基于区域建议的方法无法捕获足够的有区别的前背景信息。此外，由于源无人机和目标无人机的尺寸极小，运动复杂，基于特征聚合的方法不能很好地执行。为了解决这一问题，我们建议使用基于时空注意线索的基于两级分割的方法替代基于区域建议的方法。在第一阶段，给定重叠的帧区域，使用金字塔池通过卷积特征映射捕获详细的上下文信息。之后，在特征图上强制执行像素和通道级的注意，以确保无人机的准确定位。在第二阶段，第一阶段的检测被验证和新的可能的无人机位置被探索。为了发现新的无人机位置，我们使用了运动边界。接下来是跟踪几帧的候选无人机检测，长方体的形成，三维卷积特征图的提取，以及每个长方体内的无人机检测。该方法在两个公开的无人机检测数据集上进行了评估，并优于几个竞争基线。原文在http://arxiv.org/abs/2103.17242中发布。

1.介绍

无人机正积极应用于一些日常生活应用，如农业、抗野火、库存应用、电影摄影和监视。由于无人机的大规模应用，最近计算机视觉研究人员提出了几种新的目标检测、跟踪，通过无人机获得的图像中的农业监测和人类行动识别。除了从无人机视频中检测不同的物体，从另一个无人机捕获的视频中检测无人机本身也很重要，以避免无人机攻击、无人机碰撞和安全的多无人机飞行。
在这里插入图片描述
图1：将我们的方法（PR）与最先进的对象检测器进行比较： FCOS（FC），Mask-RCNN（MR），MEGA（ME），SLSA（SL），和SCRDet（SC）。在这个框架中（1080×1920）中，有四个尺寸的无人机：10×15,11×22,12×20,6×17。绿色的边框表示地面的真实情况，探测器的输出以黑色显示。为了清晰起见，我们并没有显示出所有的假阳性。该方法提供了更好的无人机定位，减少了误报和提高了召回率

因为较大并且突然的相机运动，任意的无人机形状和视图变化，遮挡，更重要的是目标的大小等因素的影响，从无人机视频中检测地面物体和无人机是一个非常具有挑战性的问题。尽管最近已经进行了很多探测和跟踪地面物体，以及使用无人机探测人类行动，但从无人机视频中探测无人机的工作有限。为了解决无人机探测问题，Li等人提出了一种新的无人机作为无人机探测数据集，并采用手工制作的特征进行背景估计和前景移动目标检测。类似地，罗赞采夫等人，引入了一个新的具有挑战性的无人机数据集和飞机。他们采用基于回归的方法来实现以对象为中心的稳定定位，并为检测目的进行长方体分类。

通常飞行的无人机在视频帧中占据几个像素。例如，在参考文献[24]和参考文献[23]中提出的无人机检测数据集中，无人机的平均大小分别为帧大小的0.05%和0.07%。值得注意的是，这远远小于PASCAL VOC（22.62%）和ImageNet（19.94%）。包括无人机在内的小物体通常出现在杂乱的背景中，并且朝向不同的方向，这使得探测相当困难。Huang等人在文献[17]中也指出了这个问题，他们证明了小物体的平均平均精度（mAP）远低于大物体。此外，在视频中的目标检测性能进一步恶化。为了解决这个问题，Noh等人提出了一种基于特征级超分辨率的方法，利用高分辨率的目标特征来监督一个低分辨率的模型。然而，这将需要提供低分辨率和高分辨率的无人机图像，而这是在无人机已经在远距离飞行的无人机视频中难以获得的。同样，Yang等人采用了一种基于区域建议的多层次特征融合方法来检测小对象，并引入了一种新的损失函数来处理旋转后的对象。然而，由于非常小的物体，在杂乱的背景中（例如云，建筑等）不太突出，获得良好定位的建议区域是不同的，特别是在无人机检测数据集中。Wu等人提出利用元数据（飞行高度、天气和视角）通过对抗性学习学习特定领域的特征。鉴于最近无人机的价格较低，使用RGB相机进行检测和避免碰撞，而不是依赖昂贵的硬件进行元数据收集更有用。有作者提出使用跨视频帧的卷积特征聚合来实现改进的视频目标检测。我们的实验结果和分析表明，虽然特征聚合技术可以很好地检测大型视频目标，但对于无人机检测，显式运动信息更有用。

在本文中，我们提出了一种基于两阶段分割的方法来检测杂乱背景下的无人机。第一阶段只使用外观线索，而第二阶段则利用时空线索。给定一个视频帧，我们将其划分为重叠的帧区域。每个帧区域通过深度残差网络获得卷积特征图，然后通过金字塔池化层嵌入上下文信息。然后在卷积特征图上采用像素级注意和通道级注意，从背景中区分无人机边界，实现改进的无人机定位。第二阶段的目的是发现漏检，去除假检，并确认真阳性检通过使用运动信息。为了发现失踪的无人机，我们使用运动边界来寻找可能的无人机位置。给定从第一阶段和运动边界位置的检测，我们跟踪每个位置向前和向后的几帧(8)。然后，通过这些轨迹提取长方体，并将其输入到三维卷积神经网络中进行时空特征提取。接下来是金字塔池化层。与第一阶段类似，我们在第二阶段也采用像素级和通道级注意来获得改进的定位。所提出的方法明显优于几个竞争基线。在实验部分中，我们验证了所提出的方法的每一步的有效性。本文的其余部分组织如下。第2节简要概述了小物体探测的相关发展，包括视频和图像中的无人机。第3节讨论了我们提出的方法，第4节讨论了实验结果。最后，第五节对论文进行了总结。

2.相关工作

目标检测: 近年来，在复杂基准数据集上提高目标识别精度方面取得了巨大的进步。Law等人提出了一个单级网络，其中他们检测一个对象边界框作为一对关键点。此外，作者还提出了一种新的角点池化方案，以更好地进行角点定位。为了解决目标检测数据集中的前景-背景类不平衡问题，Lin等人提出了一种改进的交叉熵损失，它减少了分配给分类良好的例子的损失的权重。同样，Li等人指出了目标检测器对长尾分布数据集的性能不佳。他们提出了一种新的平衡分组softmax算法来调节训练过程，并确保分类器对所有类进行了足够的训练。Cai等人，提出了一种多阶段目标检测的想法，其中一系列探测器通过联合（IoU）阈值的交集训练，以实现改进的目标定位。为了进一步提高目标检测精度，文献[12]的作者提出了一种新的特征融合技术，通过在特征金字塔中的多尺度特征相加。虽然检测结果令人印象深刻，但大多数探测器对小物体的检测和定位精度都较低。

小对象检测： 为了解决小、杂乱、有向物体的问题，Li等人提出使用生成对抗网络来减小小和大物体的特征表示差距。进一步改进小对象的特征表示，作者提出在训练过程中，通过匹配配对之间的相对接受野，联合使用同一图像的低分辨率和高分辨率特征图。Yang等人，提出了一种多层特征融合技术和注意网络，以实现改进的对杂波和旋转目标的目标检测。然而，这些方法大多是基于建议区域的，无法捕获足够的前景-背景信息，特别是在物体非常小的情况下（如在无人机检测中，平均图像大小的只有总图像大小的0.05%或0.07%）。我们的一个相关问题是从无人机拍摄的图像中检测地面物体，它提出用于检测航空图像中的聚集物体。然而，当从无人机平台上探测无人机时，与地面上的目标物体相比，目标物体（无人机）会经历快速、突然和高度不可预测的运动。与地面对象的受限运动相比，目标对象由于可以围绕任何轴旋转，可以具有任意变化的形状。此外，与地面物体相比，无人机的尺寸要小得多，目标物体（无人机）由于云而更频繁地出现/消失。
在这里插入图片描述
图2：我们的管道被分为两个阶段。阶段1从每一帧的重叠区域中提取Resnet50特征，然后是金字塔池，以保留全局和局部的上下文信息。通道级和像素级的注意力有助于学习更好的无人机定位。Resnet50指的是我们已经根据我们的应用修改的（参考文献第3.1节）。阶段2是将空间信息与视频的时间数据相结合。从阶段1进行的检测以及使用运动边界发现的候选区域被用作无人机可以存在的候选区域。所有的方案都以正向和向后的方式跟踪8帧，以生成具有224×224×8大小的长方体。每个长方体通过I3D网络，然后通过注意网络，准确定位每个长方体内的无人机。图中MD、TP、FP、MB分别对应漏检测、真阳性、假阳性、运动边界

视频对象检测： 在历史上，从目标检测的一个页面中，引入了一些基于视频的目标检测器，包括[48,27,39,7]。由于运动模糊、遮挡、失焦等因素，视频中的目标检测精度会下降。为了解决这个问题，Zhu等人，提出通过使用光流聚合附近的帧的特征来包括每个帧的特征表示。作者在使用瓶颈 LSTM层提高特性聚合速度。Wu等人提出使用全序列提升特征聚合来改进视频目标检测，而不是聚合附近帧的特征。最近，Chen等人利用了全局语义和局部定位信息用于内存聚合网络，并在几个视频目标检测基准上显示了令人印象深刻的结果。尽管结果令人印象深刻，但大多数这些方法都是在标准的视频对象检测数据集上进行测试的，其中的对象覆盖了视频帧的很大一部分。此外，与标准视频目标检测数据集相比，无人机视频中的运动要复杂得多。

无人机检测： 最近无人机的价格优势将把越来越多的无人机带向天空。为了保持无人机的价格和重量较小，使用简单的RGB摄像机而不是昂贵的雷达系统来探测其他飞行的无人机是很有用的。因此，研究人员解决了不同应用中的无人机检测问题。Rozantsev等人在获得大量不同空间分辨率的时空（s-t）管道后，采用两种CNN模型分别在每个s-t管道中获得粗糙和精细的运动稳定性。接下来，他们通过使用第三个CNN对每个s-t管道进行分类来获得无人机检测结果。我们的方法和[33]之间有几个不同之地方。1)我们没有在多个尺度上使用计算复杂的基于区域的滑动窗口，而是采用了一种高效的基于全卷积分割的方法;2)与[33]相比，我们的方法不需要完美的以无人机为中心的长方体，并且使用I3D学习丰富的时空信息;3)我们使用了注意力改进网络的特征表示，以改进资源分配。类似地，[24,43]的作者通过减去背景图像来检测移动的无人机，然后使用深度学习的分类器来识别无人机。此外，他们使用卡尔曼滤波来获得改进的检测。他们的方法使用了大量的参数和阈值，使其不可复制。此外，他们依赖于背景减法来检测移动目标产生了大量的假报。一些研究人员还提出使用深度图来实现三维定位，而不是使用RGB图像。然而，在现实场景中获得深度地图是相当昂贵的，另外也会为无人机增加额外的有效载荷。

3.本文提出的方法

我们的目标是在被其他飞行的无人机捕获的视频帧中探测和定位无人机。我们提出的解决这一挑战性问题的方法是基于三个观察结果： (1)由于无人机尺寸非常小，基于区域建议的方法可能无法捕获足够的区分前景-背景信息，因此本文采用基于自下而上分割的方法对每个像素进行分类；(2)模型应该学习无人机与背景之间的细微视觉差异（云等）；(3)由于目标和源无人机的大突变，特征聚合方法可能不够，我们需要明确地使用光流信息，这已在一些动作识别工作中成功应用。接下来，我们首先讨论分割网络的细节(第3.1节)，然后是用于改进定位的注意网络（第3.2节）。最后，我们讨论了如何利用运动信息来发现缺失的检测，从而提高召回率。

3.1第一阶段：利用空间线索

我们从基于外观的像素分类开始，以精确定位无人机。对于空间特征的计算，我们采用了深度残差网络。然而，考虑到无人机的尺寸非常小（图像尺寸的0.05%或0.07%），不可能利用整个图像获得良好的鉴别特征。标准的2D CNN网络，如Resnet50，需要一个固定大小的输入图像（473×473）。因此，将图像从高分辨率图像调整为低分辨率（1080×1920到473×473）进行特征计算，可以进一步将无人机的空间分辨率降低到一个或两个像素。其次，随着网络的深入，我们会丢失本地信息。为了解决这个问题，我们使用了两个步骤:1)为了避免调整图像的大小，我们将每个帧划分为重叠的区域;2)我们修改Resnet50以保持局部信息在网络深入时的完整。具体来说，我们从Resnet50的所有四个块中提取特征，并在第一个块的空间大小调整后将它们连接在一起，以避免维度不匹配最后，我们使用1×1卷积得到原始维数。我们称修改后的Resnet50称为Resnet50*。受在几个应用程序中使用金字塔池的启发，我们在框架中使用了金字塔池。具体来说，在从Resnet50*中获得特征后，我们使用四种不同的内核大小应用金字塔池，并在上采样后将这些多尺度特征连接起来。

在实验中，我们观察到，虽然上述网络提供了良好的无人机检测，但在一些情况下，它无法准确地检测和定位无人机。因此，为了使特征地图更聚焦于前景，我们使用了像素级和通道级的关注。下一节将描述像素级注意网络和通道级注意网络。

3.2注意力网络

假设无人机大小为16×11（在文献[24]中的平均无人机大小），由于两边只缺少几个像素，联合（IOU）的交点下降到0.5以下。因此，获得准确的定位对真正的无人机探测至关重要。为了实现这一点，我们在卷积特征映射上引入了详细的像素级和通道级的关注。最近，一些注意力网络被引入用于不同的计算机视觉应用。

通道注意力： 我们使用一个通道级注意网络来自动学习给信息特征丰富的通道更多的权重，并抑制信息较少的特征通道。通道级注意网络的体系结构细节如图3 (a)所示。这种注意力是通过注意向量与卷积特征映射的通道级乘法来实现的。
在这里插入图片描述
图3：(a)通道级和(b)像素级注意网络的结构细节，其中“FC”表示(a)中单元数量的全连接层，“C”和“F”分别表示(b)中的卷积和滤波器数量

像素注意力： 与通道级注意向量类似，我们生成像素级注意矩阵，将更多的权重分配给空间位置(对应于无人机)，而将较少的权重分配给非无人机区域(类似于[9,42])。像素注意网络的体系结构细节如图3 (b)所示。为了抑制背景信息，我们对所有卷积映射通道的像素注意掩模进行元素级乘法。然后添加注意掩模，以给包含有用信息的区域高权重。

在实验中，我们观察到注意网络显著地有助于实现更好的无人机定位。请注意，完整的阶段-1是端到端训练的，其中通过网络架构、训练数据和损失自动学习注意力。图4展示了有注意网络和没有注意网络进行训练的网络输出的差异。
在这里插入图片描述
图4：注意力的作用。(a)输入图像。(b)没有注意力网络和（c）有注意力网络。前两行显示了注意网络帮助网络学习给与无人机相关的像素更多权重的例子，最后一行表示注意网络抑制非无人机像素的情况。

3.3损失

无人机检测数据集有两个主要的挑战：存在一个大型无人机与非无人机类的不平衡，即大部分像素属于背景，只有少数像素（如果有的话）占据无人机。其次，由于非常小的无人机，检测到的盒子和地面真相之间即使是1或2像素的唯一差异也会使IoU得分降低到低于0.5。因此，我们使用多重损失来训练我们的网络。具体地说,为了解决类不平衡，使用焦损。利用距离-IOU损失实现更好的IOU定位。距离-IOU不仅最小化了地面真实值和检测到的边界盒之间的IOU，而且还减少了两个盒子中心之间的距离。最后，我们使用平滑-L1损失联合训练像素级注意网络，如图3 (b)所示。

3.4第二阶段:利用时空线索

本阶段的目的是确认真实的检测，拒绝错误的检测，并发现阶段1的缺失检测。为了找出新的可能的无人机位置，我们使用运动梯度，这是解释如下。

运动边界： 无人机可以通过进行运动的位置来确定其特征。然而，由于无人机探测数据集涉及移动摄像机，简单的光流幅度没有太大用处。因此，我们建议使用光流梯度来捕捉运动中的变化。具体来说，给定一个视频的每三帧，我们首先使用关键点检测来稳定它们，然后计算正向和反向光流。之后，所有三帧的最大运动梯度计算如下：其中，ux、vx、uy、vy分别为沿x轴和y轴的光流梯度，M表示运动边界，G0→1、G1→2、G2→1、G1→0分别表示帧间的运动梯度，0→1、1→2、2→1、1→0。

$G=max(\sqrt{u^2_x+u^2_y},\sqrt{v^2_x+v^2_y} ), (1)$
$M=max(G_0\to_1, G_1\to _2,G_2\to_1,G_1\to_0), (2)$
运动边界有两个限制：运动边界提供了跨越无人机边界的高幅度，而且在大多数情况下，并不能完全覆盖无人机。其次，由于光流计算的基本近似，通常光流梯度的最大值与移动的无人机不完全匹配。为了解决这些问题，我们扩大了运动边界，然后应用条件随机场来获得更好的定位候选无人机区域。

立方体形成： 给定从第一阶段的检测和使用运动边界获得的新发现的位置，我们的下一步是从所有候选无人机位置中提取时空特征。为此，我们在每个候选位置（包括第1阶段的检测和新发现的位置）初始化相关跟踪器。由于小型无人机和复杂的摄像机运动，在几帧内，到达目的地的轨迹往往会偏离其初始位置，因此，我们将轨迹长度限制为8帧。具体来说，给定候选无人机的位置，跟踪是向前三帧，向后四帧。请注意，跟踪是在相应的8帧的运动稳定之后完成的。为了捕获候选位置的上下文信息并补偿轨迹漂移，从每个轨迹的视频帧中提取N×N斑块，得到一个大小为N×N×8的长方体。最后，为了从每个长方体中提取时空特征，我们使用了膨胀的三维（I3D）网络。我们选择I3D是因为它的速度，小的内存消耗，以及捕获详细时空特性的优秀能力。为了使长方体的大小与标准的I3D网络输入尺寸相一致，我们在每个贴片上使用双线性插值，将长方体的大小从N×N×8调整到224×224×8。三维卷积特征从I3D网络的最后第三层提取，该网络的尺寸为14×14×480。为了与阶段1保持一致，我们使用双线性插值将特征映射的大小调整为60×60×480。然后是二维卷积层，将60×60×480转换为60×60×2048特征图。在实验上，我们也尝试了补丁超分辨率和特征图超分辨率，而不是使用双线性插值来调整大小，然而，我们没有观察到任何性能的改善。
在这里插入图片描述
图5：来自NPS-drone数据集的样本帧。绿色的盒子包裹着无人机

最后，利用空间金字塔池化技术对不同尺度上的每个长方体的时空卷积特征图进行聚合。接下来是第3.2节中所讨论的注意力网络和网络损失。

4.实验

我们实验的主要目的是验证所提出的方法在移动摄像机视频中准确定位无人机。为此，我们在两个具有挑战性的无人机数据集上进行了广泛的实验，并将我们的方法与几种有竞争的方法进行了比较，并分析了所提出的方法的不同组成部分。

4.1实施细节

在本节中，我们将提供我们的方法的实现细节。在阶段1中，我们将每帧划分为NPS-Drones数据集的9个重叠补丁，以及FL-Drones数据集的4个重叠补丁。对于这两个数据集，阶段1是从头到尾进行训练的，而对于阶段2，使用具有冻结权重的预训练I3D网络进行特征提取。对于NPS-Drones数据集，在无人机上提取一个固定的100×100补丁大小来制作一个长方体，而在FL-Drones数据集中，补丁的大小对应于无人机的大小。在所有的实验中，我们使用Adam 优化器，初始学习率为0.001，没有衰减参数。
在这里插入图片描述
图6：来自飞行无人机数据集的样本帧。绿色的盒子包裹着无人机

在长方体形成过程中采用了一个简单的相关跟踪器。我们去除候选位置（由运动边界提供），它们分别小于最大无人机的尺寸，大于无人机的最小尺寸。为了提高训练的水平，我们也使用了硬负向挖掘。在后处理步骤中，我们删除了只出现在单个帧上的检测结果。

评价指标： 在相关的工作之后，我们使用精度、查全率、f1分数和平均精度（AP）来评估我们的方法和基线的性能，其中每一帧都被视为一个单独的图像进行评估。我们在每一个第4帧的测试数据上评估所有的方法。

4.2数据集

我们在两个无人机数据集上评估了我们的方法。下面将简要介绍其中的每一个内容。

NPS-Drones: 该数据集由海军研究生院（NPS）发布，并已公开提供1。该数据集包含50个视频，这些视频是使用安装在定制三角翼机身上的高清分辨率（1920×1080和1280×760）的GoPro-3摄像机录制的。无人机的最小尺寸、平均尺寸和最大尺寸分别为10×8、16.2×11.6和65×21。数据集中的总帧数为70250帧。在实验中，前40个视频用于训练和验证，最后10个视频用于测试。

FL-Drones： 本文中使用的第二个无人机数据集是由罗赞采夫等人介绍的。由于极端的照明、姿势和大小变化，这个数据集相当具有挑战性。这个数据集包含了室内和室外的样本，飞行无人机的形状不同，即使在连续的帧中，它们的形状也几乎没有保留下来。无人机由于小体积和强烈的照明条件加上复杂的背景而混合在背景中。无人机的最小、平均和最大尺寸分别为：9×9、25.5×16.4和259×197，帧分辨率分别为640×480和752×480。该数据集包含14个视频，共38948帧。正如作者所建议的，一半的数据用于训练，另一半用于测试。

来自两个数据集的样本帧和无人机如图5、图6和图7所示。注意，在两个数据集中都有几个帧没有任何无人机。有趣的是，作者发布的大多数原始注释都并不精确，边界框比实际的无人机要大得多。为了解决这个问题，我们再次重新注释了这两个数据集。鉴于两个数据集中的帧数都超过100K，重新注释需要花费大量的时间。改进后的注释的示例如图8所示。这些改进后的标注将会被发布。
在这里插入图片描述
图7：此图显示了两个数据集的无人机形状和大小的变化情况：NPS-drone（前两行）和FL-drone（后两行）数据集。绿色的方框表示地面真实的边界方框

Method	Precision	Recall	FI score	AP
SCRDet-H	0.81	0.74	0.77	0.65
SCRDet-R	0.79	0.71	0.75	0.61
FCOS	0.88	0.84	0.86	0.83
Mask-RCNN	0.66	0.91	0.76	0.89
MEGA	0.88	0.82	0.85	0.83
SLSA	0.47	0.67	0.55	0.46
Proposed	0.92	0.91	0.92	0.89

表1：在NPS数据集上，所提出的方法与几种先进方法的定量比较

在这里插入图片描述
图8：在图中，我们展示了改进的注释的示例。蓝色的框显示作者最初发布的注释，红色的框显示我们已完成的注释。前三列显示了来自NPS-drones数据集的图像，最后三列是来自FL-drones数据集的图像。在每个图像下，我们显示新旧注释之间的IOU。

Method	Precision	Recall	FI score	AP
SCRDet-H	0.54	0.62	0.58	0.52
SCRDet-R	0.55	0.62	0.58	0.52
FCOS	0.69	0.70	0.69	0.62
Mask-RCNN	0.76	0.68	0.72	0.68
MEGA	0.71	0.72	0.71	0.65
SLSA	0.57	0.72	0.64	0.61
Proposed	0.84	0.76	0.80	0.72

表2：在FL-Drones数据集上，所提出的方法与几种先进方法的定量比较

4.3与最先进的产品进行比较

我们将所提出的方法与最近提出的方法进行了比较，如全卷积单级目标检测器、杂波和旋转的小对象检测器、实例分割和视频对象检测器。为了便于比较，所有的基线方法都使用公共代码提供的预先训练好的权重进行微调。具体来说，SLSA、FCOS 、MEGA和SCRDet 使用相应论文的预训练权重进行微调，MASK-RCNN 使用ImageNet训练的Resnet50权重进行微调。I3D具有通过动力学训练得到的权重。由于计算能力的限制，我们与之比较的所有方法都使用一个Nvidia 1080Ti GPU进行了从80,000到10万的迭代训练。

在两个无人机检测数据集上，所提方法与基线的定量比较如表1和表2所示。结果表明，我们的方法在不同的评价指标上显著优于最近的基线。

4.4消融研究

组件分析： 我们分析了所提出的方法的不同组成部分，以验证其有效性。表3中的实验结果表明，我们的方法的每个组件都是重要的，并有助于最终的准确性。

Method	Precision	Recall	FI score
CE	0.87	0.82	0.85
$\mathcal{L}$	0.88	0.84	0.86
$\mathcal{L} +\mathcal{CA}$	0.88	0.86	0.87
$\mathcal{L} +\mathcal{PA}$	0.89	0.85	0.87
Stage-1	0.92	0.88	0.90
Stage-1+Stage-2	0.92	0.91	0.92

表3：在NPS数据集上不同成分的消融研究。第一行显示了仅采用交叉熵损失（CE）的方法。第二行表示包含焦点损失和距离-IOU损失(L)的结果。第三行展示了使用通道级注意（L+ CA）的结果。之后，我们展示了使用像素级注意（L+ PA）的结果。最后，最后两行分别显示了阶段1和阶段2之后的结果

两个阶段的方法： 如表3和图9所示，我们观察到两阶段方法通过发现和分类困难的无人机位置，比1阶段方法产生了更好的检测结果。我们也尝试了1个阶段的多帧，但取得了非常低的检测精度（低于F1-score=40）。我们认为，由于无人机的目标和源运动，1级多帧方法无法学习探测无人机。

故障案例： 由于该方法试图基于外观和运动线索来探测无人机，因此具有慢动作和难以区分的形状的无人机难以被探测到。图10显示了我们的方法的失败案例。

5.结论

与无人机使用相关的最重要的挑战之一是避免碰撞或安全的多无人机飞行。因此，开发强大的计算机视觉方法是至关重要的，可以检测和避免碰撞使用廉价的相机。我们提出了一种两阶段的方法来探测其他飞行无人机利用时空线索。我们没有依赖于基于区域建议的方法，而是使用了一种基于分割的方法，利用像素和通道级注意进行精确的无人机检测。除了使用外观信息，我们还利用帧间的运动信息来获得更好的召回率。我们观察到，对于无人机到无人机的视频，两阶段方法比一级方法表现得更好。与技术现状的全面比较和详细的消融研究验证了本工作中提出的框架和想法。
*在这里插入图片描述*
图9 ：一阶段与两阶段检测结果的定性比较。(a)表示第一阶段的检测结果，(b)表示两阶段方法的检测结果。红色的盒子代表检测，蓝色的盒子只是为了更好的可视化。第一阶段在每个例子中都没有命中一个无人机
在这里插入图片描述
图10 ：我们的方法的故障情况。遗漏的检测和正确的检测分别用绿色和红色的方框表示。外框只是为了更好地可视化。这些形状和运动能力难以区分的无人机很难被发现。(a)和(b)分别代表来自NPS-Drones和FL-Drones数据集的样本