Robust Multi-Drone Multi-Target Tracking to Resolve Target Occlusion: A Benchmark阅读笔记

Mrwei_418

已于 2023-12-24 11:34:49 修改

阅读量1.2k

点赞数 20

分类专栏：论文阅读笔记文章标签：笔记目标检测论文阅读人工智能计算机视觉

于 2023-12-24 10:37:23 首次发布

本文链接：https://blog.csdn.net/Mrwei_418/article/details/135179132

版权

论文阅读笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Robust Multi-Drone Multi-Target Tracking to Resolve Target Occlusion: A Benchmark阅读笔记

Abstract

多无人机多目标追踪的目标是通过多个无人机的协作来检测和追踪目标，并将不同无人机的物体身份进行关联，这可以克服单一无人机物体追踪的不足。为了解决多无人机多目标追踪任务中身份关联和目标遮挡的关键挑战，我们收集了一个名为MDMT的具有遮挡意识的多无人机多目标追踪数据集。它包含了88个视频序列，共39,678帧，包括11,454个不同的人、自行车和汽车ID。MDMT数据集包含了2,204,620个边界框，其中543,444个边界框包含目标遮挡。我们还设计了一个多设备目标关联评分（MDA）作为评估多设备追踪中跨视图目标关联能力的标准。此外，我们提出了一种用于多无人机多目标追踪任务的多匹配身份认证网络（MIA-Net）。MIA-Net中的局部-全局匹配算法发现了跨无人机目标的拓扑关系，有效解决了跨无人机关联问题，并利用多无人机视图映射的优势有效补充了被遮挡的目标。在MDMT数据集上的广泛实验验证了我们提出的MIA-Net在身份关联和多物体追踪中处理遮挡问题的有效性。

Introduction

背景

无人机或装备有摄像头的智能无人机系统已广泛用于智能城市、军事安全、河流巡查、电力系统、交通等领域。与静态摄像头相比，无人机可以覆盖大面积并频繁改变视角。无人机能够在快速移动中在空中和地面上检测和追踪移动目标。然而，无人机的物体追踪必须面对诸如小目标、严重遮挡、模糊成像、目标相似性大和照明条件剧烈变化等挑战。大多数现有的物体追踪模型依赖单个无人机，只能从极小的视角捕捉移动物体。多无人机感知能有效利用多视角互补信息，提高追踪模型对遮挡的鲁棒性。

多摄像头协作感知可以有效地融合多视角互补信息，已成为一个新兴的研究领域。已经提出了几个多目标多摄像头（MTMC）数据集，包括DukeMTMC [1]、NLPR MCT [2] 和 CityFlow [3]。现有的多摄像头多目标追踪方法通常可以分为两大类。==首先，基于轨迹段的方法在每个摄像头内生成局部轨迹，然后将不同摄像头的轨迹段匹配起来，为每个物体生成完整轨迹 [4]、[5]、[6]。其次，重识别方法 [7] 将重识别与物体追踪集成，并将其构建为一个最优贝叶斯滤波器。==这些方法主要专注于监控场景，并专门为多个静态摄像头设计，这些摄像头视角重叠较少。对于多无人机任务，MDOT [8] 是第一个多无人机追踪数据集，它是为多无人机单一物体追踪而收集的。提出了一种通过自适应融合、重新检测和目标模板共享的代理共享网络，已被证明可以显著提高单一物体追踪性能。

高质量和大规模的数据集在基于无人机的先进和高效物体检测与追踪算法的开发中扮演着重要角色。近年来，已经收集了一些针对单无人机检测和追踪的基准数据集，包括VisDrone [9]、UAV123 [10]、UAVDT [11]、DroneCrowd [12] 和 DroneVehicle [13]。然而，使用多个无人机进行多物体检测和追踪的数据集却很少。因此，在这项工作中，我们构建了一个多无人机多目标追踪（MDMT）数据集，结合了无人机和多目标多摄像头追踪（MTMC）的优势。MDMT数据集由88组视频剪辑组成，共有39,678帧高分辨率图像，由两架无人机拍摄。我们的MDMT数据集涵盖了多种场景，包括城市道路、郊区道路、停车场和其他场景，拍摄时间从白天到夜晚不等。MDMT数据集中共标注了2,204,620个目标，其中包括543,444个遮挡目标。据我们所知，这是迄今为止最大且标注最全面的多无人机多目标追踪数据集，如表I所示。

如图1所示，MDMT数据集包含了不同类型的遮挡情景，许多被遮挡的目标使得物体检测和追踪极具挑战性。除了大量被遮挡的物体外，我们数据集中的目标类别包括人、汽车和自行车，这些目标在大小和移动速度上都有很大的差异，这使得跨无人机关联目标变得更加具有挑战性。此外，很少有指标可以评估多无人机多物体追踪系统中目标关联的能力。因此，我们设计了一种新的多设备多目标追踪评估指标——多设备目标关联评分（MDA），以有效评估多设备系统中多目标追踪方法的性能。

与现有的多摄像头追踪任务不同，单个无人机捕获的密集物体在无人机内部具有很高的相似性，而无人机的高空倾斜视角使得具有相同ID的跨无人机目标难以关联。本文提出了一种多匹配身份认证网络（MIA-Net），采用追踪-匹配策略，通过协调全局匹配和局部匹配来关联和追踪多个无人机上的目标。MIA-Net利用多无人机视角的互补信息，在遮挡情况下实现稳健和准确的多目标追踪。全局匹配使用整个图像的关键点信息进行匹配。与之相对的是，局部匹配使用多个无人机目标拓扑网络的映射关系进行图像匹配，这种方法简单高效，能够精确匹配来自多个无人机的目标。

Related Work

A. Existing Datasets

计算机视觉任务的性能在很大程度上依赖于现有的具有高质量标注的大规模数据集。近年来，已经提出了大量计算机视觉的基准数据集。目前主要的计算机视觉数据集主要集中在单一摄像头上，例如由Hsieh等人 [14] 使用无人机捕获的CARPK数据集，该数据集收集了停车场的1,448张图像，并标注了约90,000个边界框。DroneVehicle是第一个基于无人机的RGB-红外数据集，值得注意的是，虽然DroneVehicle使用两种类型的摄像头收集数据，但该数据集更多地关注在多模态融合中的目标检测。LaSOT [16] 是一个大规模单目标追踪数据集，包含70个不同的目标类别和超过350万个边界框。随着无人机技术的发展，基于无人机平台摄影的许多数据集出现了，例如UAV123和UAVDT-SOT。Patrick Dendorfer等人将MOT15 [20]、MOT16 [15]、MOT17 [15]和MOT20 [17]整合到MOTChallenge [21]中，将所有目标分类为12个类别。MOTChallenge包含丰富的目标和标注，成为流行的多目标追踪数据集之一。PETS2009 [22] 包含从100张图像中切割的2,514个图像块，而Campus [23] 数据集是在校园内收集的行人数据集，包含8,250张图像。这两个数据集在重识别领域的早期阶段起到了关键作用。然而，这些数据集中的数据量有限，不足以满足深度学习的大规模数据要求。随着目标遮挡的存在，近年来越来越多的研究人员通过使用多视角数据来缓解这个问题。Market-1501 [19] 数据集由多摄像头拍摄，包含不同分辨率的1,501个人类ID，共计32,668个边界框。DukeMTMC[1] 数据集是一个大规模多摄像头行人追踪数据集，包含超过2,852,200帧和超过400万个边界框。NLPR MCT [2] 数据集不包含遮挡目标，这使得该数据集不适合解决遮挡目标的问题。与Market-1501和DukeMTMC数据集类似，NLPR MCT [2] 和 CityFlow [3] 都使用固定摄像头，这意味着图像或视频中的背景几乎不会改变。MDOT [8] 数据集是基于多无人机平台的多无人机单目标追踪数据集，共有259,793个边界框。为了促进多无人机多目标追踪研究以解决目标遮挡问题，我们构建了MDMT数据集，这是一个大规模的多无人机多目标追踪数据集，包括39,678个视频帧，涵盖人、自行车和汽车三类目标的11,454个ID，共有2,204,620个边界框。

与表I中的先前数据集不同，MDMT数据集包含了不同类型的遮挡情景，许多被遮挡的目标使得物体检测和追踪极具挑战性。在MDMT中，同一个目标在多个摄像头的视野下同时出现，更有助于解决遮挡问题。DukeMTMC数据集 [1] 包含8个摄像头，其中两对摄像头有小的重叠区域，大约100人通过重叠区域，而其他摄像头之间的图像不重叠。NLPRMCT数据集 [2] 没有重叠视角，无法应用于重叠视角下的遮挡问题处理。对于CityFlow [3]，相同路口的一些摄像头具有重叠图像。此外，MDMT适用于诸如物体检测、物体追踪、目标重识别以及图像匹配等多种任务。总的来说，与图I中现有的数据集相比，MDMT在各种任务上具有广泛的应用前景，并将显著促进多无人机协作环境感知的发展。

B. Object Detection

在深度学习时代，物体检测领域经历了一次飞跃，包括以Faster R-CNN [24]为代表的两阶段算法，以及以YOLO [25]为代表的一阶段算法。两阶段方法往往更准确但速度较慢。相比之下，一阶段方法更快，但其准确性有限。为了获得关于物体的多尺度信息，Lin等人 [26] 提出了用于物体检测的特征金字塔网络，该网络从低层到高层获得语义信息。He等人 [27] 提出了RetinaNet，它使用焦点损失通过抑制简单样本的权重并专注于难样本来实现正负样本平衡。在基于锚点的方法中，划分正负样本的IOU阈值难以确定。Cascade R-CNN [28] 使用不同的IOU阈值并训练多个级联探测器来获得更好的提议。IOU-Net [29] 通过添加额外的IOU预测头来实现更好的边界框回归性能。YOLOX [30] 将无锚点策略引入YOLO系列算法中，减少了计算工作量，并解决了正负样本平衡的问题。

随着Transformer在自然语言处理（NLP）[31] 领域取得突破，Dosovitskiy等人 [32] 证明了视觉问题可以不使用传统的神经网络，仅使用Transformer结构来解决，并从此将Transformer引入视觉领域。DETR [33] 是将物体检测任务与Transformer结合的首个工作。它将物体检测任务视为一个无需先验知识约束（如非最大值抑制（NMS）和锚点）的图像到集合问题，并使用Transformer实现端到端的物体检测任务。Swin Transformer [34] 设计了层次采样结构，以获取不同层次的视觉特征，并在移动窗口上提取特征。视觉-语言预训练在下游视觉任务中也表现出良好的性能 [35]、[36]、[37]。GLIP [38] 将定位预训练和视觉语言预训练与物体检测任务结合起来，以学习更丰富的语义表示，并取得了最先进的结果。

C. Multiple Object Tracking

多物体追踪（MOT）是指在视频序列中生成每个物体的追踪轨迹的任务。它在视频监控、交通监测以及人群分析等方面有广泛的应用。为解决MOT任务，已经提出了许多基于深度学习的方法，其中大多数可以归类为SDT（分离检测和追踪）方法 [39]、[40]、[41]、[42]、[43]、[44]，==使用检测模型来检测图像中的所有目标。然后，追踪模型通过计算目标的特征将每个目标与轨迹关联起来。==SORT [45] 和 DeepSort [46]、[47] 是SDT的代表性模型。SORT [45] 使用卡尔曼滤波器和匈牙利算法的基本组合进行追踪组件。DeepSort [46] 集成外观信息以提高SORT [45] 的性能，使模型能够在更长时间的遮挡中追踪物体，并减少身份切换次数。此外，[48] 提出了一个深度对齐网络来学习检测的空间转换，从而获得更准确的结果，并设计了一个包含空间、运动和外观信息的成本矩阵，有助于更加稳健的目标关联过程。**最近，另一种同时检测和追踪的端到端MOT方法出现了。**例如，FairMOT [49] 是一种JDE（联合学习检测器和嵌入）方法，提出了一种基于无锚点物体检测器和重识别（Re-ID）的方法，并设计了一个详细的检测器和Re-ID过程的训练模型，以公平性为基础。更近期的CenterTrack [50] 采用一对图像和前一帧的检测结果，预测它们与前一帧的关联并定位物体。尽管研究人员提出了不同的方法，但跨不同帧的目标关联仍然是一个挑战性问题。Tractor [44] 通过使用边界框回归来预测目标的坐标，简化了数据关联过程，意味着将检测器转换为Tracktor。ByteTrack [51] 通过关联几乎每个检测框而不仅仅是高分数的框来追踪目标，从而在MOT17基准测试中取得了最先进的成绩。

==由于目标的遮挡和重新出现，错误预测和ID切换是当前多目标追踪领域需要解决的核心问题。==除此之外，受限于缺乏补充信息，单摄像头MOT在解决遮挡情况时没有优势，总是对遮挡进行某些先验预测 [52]、[53]、[54]。相反，多视角图像直观地互补，以克服视野限制

D. Multi-Drone Multi-Target Tracking and Multi-Target Multi-Camera Tracking

多无人机多目标追踪（MDMTT）任务是指利用由无人机从不同视角捕获的图像生成多目标追踪轨迹。与MDMTT相比，多目标多摄像头追踪（MTMCT）已经被广泛研究，唯一的区别在于图像的捕获方式。这项任务的主要难点在于我们必须制定从不同视点捕获的图像之间的相关性，并构建一个模型来融合多视角信息，以提升追踪性能。为了解决这些问题，许多研究人员提出了各种方法，可以分为两类。

**轨迹段到轨迹段的方法在每个摄像头内生成局部轨迹，然后将不同摄像头的轨迹段匹配起来，为每个物体生成完整轨迹。**M. Bredereck等人 [4] 基于似然函数提出了一种高效的贪婪匹配算法来匹配轨迹。Xu等人 [5] 将多目标多摄像头追踪重新定义为组合结构优化问题，并提出了一个层次化组合模型。除此之外，[6] 将跨摄像头轨迹段的匹配问题视为轨迹段到目标的分配问题，将每个轨迹段分配给一个唯一的目标。

MTMCT的另一个重要分支方法基于重识别（Re-ID）。Beyer L等人 [7] 提出了一种理论上合理的方法，将重识别与追踪结合起来，构建为一个最优贝叶斯滤波器。在 [55] 中，Ristani等人提出了一种自适应加权三重损失用于参数精炼，并设计了一种新技术用于困难身份挖掘。他们的工作在DukeMTMC和DukeMTMC-reID [1] 基准上的追踪和重识别任务中均优于现有最先进的模型。

传统基于轨迹段或重识别的方法在面对目标遮挡时几乎无法帮助，且不同摄像头之间在视觉外观上的巨大变化使得训练一个高效的重识别模型变得困难，因为类内和类间错误之间的矛盾。在本文中，我们用一种高效的图像匹配方法解决了这些问题，这种全局-局部最优匹配方法可以构建从不同视点捕获的图像之间的相关性，并能有效提升多无人机多目标追踪任务的性能。

MDMT DATASET

目标遮挡严重影响了从无人机进行的物体检测和追踪的性能。从多个无人机捕获的图像或视频包含互补信息，可以有效解决目标遮挡的挑战。然而，针对具有严重遮挡的物体检测和追踪，现有的多无人机视觉数据集较少。为了填补这一空白，我们构建了一个多无人机多目标追踪数据集（MDMT）。

A. Data Collection and Preprocessing

MDMT数据集是由两架DJI PHANTOM 4 Pro无人机收集的，包含总共88组（44对）视频序列（共39,678帧），分辨率为1920×1080。在广场、城市道路、乡村道路、交叉路口、立交桥和停车场等不同场景中，几名专业人员在不同的光照条件下操作无人机，从不同的高度和视角收集数据，如图2所示。在数据收集过程中，两架无人机的视角相差90度。两架无人机捕获角度的差异使MDMT数据集不同于大多数现有数据集，因为MDMT包含重叠图像，这使得它更有利于处理数据中的遮挡问题。为了增加目标特征的多样性，每对视频序列的捕获角度（航拍和斜视角）和捕获高度（30米-80米）都有所不同。得益于我们在长时间内的持续数据收集，MDMT数据集包含了不同时间段的各种天气数据，包括晴天、阴天和夜晚。此外，在无人机数据捕获期间有两种不同的数据获取方式，分别是运动捕捉和固定点捕捉。

在数据收集后，通过人工选择丢弃了如模糊拍摄等低质量的视频序列。同时，人工对齐确保了两架无人机收集的数据具有时间上的一致性。换句话说，每对视频序列都具有相同的开始和结束时间。为了确保数据的可靠性，我们在人工检查所有序列后获得了干净的未标注数据。

需要注意的是，当我们使用无人机捕获数据时，我们严格遵守拍摄地点的法律法规，避免在限制区域内拍摄视频。由于目标的规模非常小，无法获取如面部和车牌等识别信息。经过仔细检查，我们确认我们数据集中的所有数据不会泄露任何个人信息。

B. Statistics and Train, Validation, Test Set Splits

MDMT中有三种天气条件，分别是阴天、晴天和黑夜。每种天气的比例为9:3:1（54:18:6）。我们将每种天气条件下的图像按大约6:1:3的比例分配到训练集、验证集和测试集。

如表II所示，我们保持训练集、验证集和测试集在阴天天气状态下的比例为5:1:3，即55.56% : 11.11% : 33.33%。在晴天条件下，每个集合的比例也是5:1:3。在黑暗条件下，训练集、验证集和测试集的比例为5:1:2，即62.50% : 12.50% : 25.00%。在训练集中，有14,918帧阴天、5,138帧晴天和4,000帧黑夜。验证集包含2,420帧阴天、840帧晴天和600帧黑夜。测试集包含7,482帧阴天、2,500帧晴天和1,780帧黑夜。总结来说，我们数据集中训练集、验证集和测试集的帧比例大约为6:1:3。

C. Data Annotation

我们使用VATIC [56] 来标注经过人工选择的干净视频序列。作为典型的多目标追踪标注方法，目标被标注为边界框 (xtl, ytl, xbr, ybr)，其中 (xtl, ytl) 和 (xbr, ybr) 分别是标注框的两个对角点。尽管这种标注方法经常用于目标检测和目标追踪等应用中，但在处理遮挡目标的视角上仍然存在一些局限性。为了改进算法解决目标遮挡问题，我们在MDMT数据集的标注过程中添加了遮挡标签。在边界框中，目标被分类为人、自行车和汽车。对于已标注的数据，我们使用LabelMe [57] 进行逐帧验证，以确保标注的准确性，并确保目标的边界框是能够包围目标的最小框。我们为每个目标设置了不同的ID号，并检查确保没有重复的ID标签。最后，标注结果被保存在XML文件中。

D. Occlusion Attribute

我们的MDMT数据集总共包含39,678帧（19,839对），标注了11,454个ID和2,204,620个边界框，其中543,444个是遮挡标签，占总边界框的24.7%。

我们的数据集包含人、自行车和汽车三个类别，分别有2,711个人的ID、626个自行车的ID和8,117个汽车的ID。在无人机1中，有4,920个目标ID和90,829个边界框，其中198,913个边界框被遮挡。无人机2包含6,534个目标ID和1,296,361个边界框，其中344,531个边界框被遮挡。不同类别的统计分布如图3所示。

E. Evaluation Metrics

多目标追踪通常通过MOTA [58]和idF1 [1]进行评估。然而，对于多目标追踪算法在多设备下，算法的ID相关性需要基于多设备融合结果进行评估。为了填补评价指标中的这一空白，我们提出了一种新的多设备多目标追踪评价指标，多设备目标关联评分（MDA）。

多设备目标关联评分（MDA） 评估了在多设备追踪多个目标时，大量重叠帧内共同目标的ID关联程度。

Definition 1: The total frame in a video sequence to be tested is denoted as F, and the total number of devices considered is indicated as N. j or k represents the device serial number. Each time we select two of N devices to calculate their association score. We use ( C^2_N ) to denote the number of pairs we can select from multiple devices, which can be calculated by (2). Multi-device target association score (MDA) is calculated as:

$\frac{1}{C^2_N \times F} \sum_{j=1}^{N-1} \sum_{k=j+1}^{N} \sum_{i=1}^{F} \left( \frac{TA_{(j,k,i)}}{GA_{(j,k,i)} + FA_{(j,k,i)} + MA_{(j,k,i)}} \right)$

$C^2_N = \frac{N!}{(N - 2)! \times 2!}$

The common evaluation metrics for multi-target tracking under a single device are MOTA and idF1. On the basis of them, we propose MDA for multi-target tracking evaluation of multi-device (including but not limited to multi-drone). MDA focuses on the performance evaluation of ID association under multi-device, which will provide inspiration for designing better multi-device multi-target tracking algorithms.

E. 评价指标

多设备目标关联评分（MDA） 评估了在多设备追踪多个目标时，大量重叠帧内共同目标的ID关联程度。

定义 1：

视频序列中的总帧数和测试的设备总数分别用 ( F ) 和 ( N ) 表示。( j ) 或 ( k ) 代表设备的序列号。每次我们从 ( N ) 个设备中选择两个来计算它们的关联评分。我们用 ( C^2_N ) 表示可以从多个设备中选择的对数，可以通过下式计算。多设备目标关联评分（MDA）计算如下：

$\frac{1}{C^2_N \times F} \sum_{j=1}^{N-1} \sum_{k=j+1}^{N} \sum_{i=1}^{F} \left( \frac{TA_{(j,k,i)}}{GA_{(j,k,i)} + FA_{(j,k,i)} + MA_{(j,k,i)}} \right)$

其中：

$C^2_N = \frac{N!}{(N - 2)! \times 2!}$

where i denotes the i-th frame, j and k indicate different capture devices, ( TA_{(j,k,i)} ) is the number of true-associated target ID pairs by the multi-device multi-target tracking algorithm, ( GA_{(j,k,i)} ) represents ground-truth-associated which is the number of all associated multi-device ID pairs in ground truth, ( FA_{(j,k,i)} ) is the number of multi-device ID pairs false-associated by the multi-device multi-target tracking algorithm, and ( MA_{(j,k,i)} ) is the number of ID pairs that are miss-associated by the multi-device tracking algorithm but appear in the ground truth. The formula calculated in parentheses in (1) is the accuracy of associating the same target for the j-th and k-th devices.

常用的单设备多目标追踪评价指标是MOTA和idF1。在它们的基础上，我们为多设备（包括但不限于多无人机）的多目标追踪评价提出了MDA。MDA关注在多设备下ID关联的性能评估，将为设计更好的多设备多目标追踪算法提供灵感。

Method

A. MIA-Net Architecture

在本节中，我们将介绍一种高效的追踪模型，该模型采用多匹配机制进行多无人机协同追踪。该架构的概览在图4中展示。输入是MDMT中不同视图的成对图像序列。每个对应的帧对首先被放入同一个物体检测器。然后，检测到的目标被送入单无人机多目标追踪器，该追踪器将新的边界框与前一帧的缓冲的已确认ID的边界框进行匹配。对于第一帧，我们直接从GT标签初始化它们，这称为离线追踪。这是可选的，因为这个初始化过程可以被替换以获得与下面描述的全局匹配相同的效果。**我们称不使用GT来初始化第一帧的方法为在线追踪。**从独立追踪结果R1和R2，我们可以获得每个目标的身份信息和它们的边界框。接下来的匹配模块包含两个主要策略，即局部匹配和全局匹配。

如果R1和R2中匹配的目标数量超过四个，我们可以使用这些目标的中心作为关键点来计算当前帧对的透视变换矩阵T，这种方法称为局部匹配。否则，我们使用SIFT（尺度不变特征变换）[59]算法在整个图像内提取感兴趣点，然后使用k最近邻（KNN）[60]匹配它们。同样地，匹配的SIFT点被用来计算变换矩阵T，我们称这为全局匹配。

If the number of matched targets inR1 andR2 exceeds four,we can use the centers of these targets as key points to calculate the perspective transformation matrix T for current frame pairs, and this method is local matching. Otherwise,we extract interest points using the SIFT (scale-invariant feature transform) [59] algorithm within the whole image and then match them with k-nearest neighbor (KNN) [60]. Similarly, the matched SIFT points are used to calculate the transformation matrix T, and we call this global matching.

当我们得到变换矩阵T时，我们可以将那些未匹配的目标从一幅图像映射到另一幅图像，并在映射点足够靠近另一幅图像中正在追踪的目标时，将它们关联到相同的ID。然后我们更新ID信息到每个追踪器的缓冲区，当下一帧到来时，更新的ID信息将被追踪器使用，以保持每个目标的ID一致性。

**得益于映射算法，我们也可以利用一个视图下的信息来补充其他视图中被遮挡的目标信息。**作为MOT追踪器的正常操作，低置信度分数的检测到的边界框被视为假检测并在追踪时被丢弃。在MDMT数据集中，遮挡频繁发生，这对检测器构成了巨大挑战，并使追踪结果变得更糟。因此，所提出的架构可以有效且高效地在多无人机视角下追踪目标，并且使这个架构工作的关键点是匹配和ID分配机制，我们将在后续部分给出详细解释。

B. 本地最优匹配子网

本地匹配的目的是获得图像对之间的单应性变换矩阵 $T$ 。因此，我们可以将一个无人机中的目标映射到另一个无人机中，并计算真实目标和映射点之间的距离，以执行我们在ID分配部分描述的ID分配。如图5所示，==我们只需要在图像对之间计算几个可靠的匹配点来计算单应性变换矩阵 $T$ 。==在我们的数据集中，视场的重叠是持续的，因此总是有匹配目标出现在图像对中，可以用来计算旋转矩阵。如公式（3）所示， $x_{Aid}$ 和 $y_{Aid}$ 表示无人机A中目标中心的X，Y坐标，同样 $x_{Bid}$ 和 $y_{Bid}$ 表示无人机B中具有相同序列号‘id’的目标。具有相同序列号的目标在两个无人机中是一对一对应的。然后目标之间的对应关系 $x_{Aid}, y_{Aid})$ 和 $x_{Bid}, y_{Bid})$ 可以通过单应性变换矩阵 $T_{A \rightarrow B}$ 在公式（4）中链接起来。有了4个以上匹配点 $x_{Aid}, y_{Aid})$ 和 $x_{Bid}, y_{Bid})$ ， $T_{A \rightarrow B}$ 可以通过解公式（5）来计算。

$\begin{bmatrix} x_{Bid} \\ y_{Bid} \\ 1 \end{bmatrix} = T_{A \rightarrow B} \begin{bmatrix} x_{Aid} \\ y_{Aid} \\ 1 \end{bmatrix}$

$T_{A \rightarrow B} = \begin{bmatrix} t_{11} & t_{12} & t_{13} \\ t_{21} & t_{22} & t_{23} \\ t_{31} & t_{32} & t_{33} \end{bmatrix} \begin{bmatrix} x_{Bid} \\ y_{Bid} \end{bmatrix}$

$\begin{bmatrix} \frac{t_{11}x_{Aid} + t_{12}y_{Aid} + t_{13}}{t_{31}x_{Aid} + t_{32}y_{Aid} + 1} \\ \frac{t_{21}x_{Aid} + t_{22}y_{Aid} + t_{23}}{t_{31}x_{Aid} + t_{32}y_{Aid} + 1} \end{bmatrix}$

其中 $x_{Aid}, y_{Aid})$ 和 $x_{Bid}, y_{Bid})$ 是无人机A和无人机B中匹配的中心点。 $T_{A \rightarrow B}$ 是随机特征点从无人机A到无人机B视角转换后的映射关系单应矩阵。

==由于在跟踪视频中目标的一致性，我们可以将当前检测到的对象与先前的帧关联起来，并继承目标的ID以及类别标签，避免在出现新帧时从头开始匹配目标的必要性。==有了跟踪目标的ID一致性，匹配目标始终可以用来为每个图像对计算矩阵 $T$ 。有了先前的目标通过和新目标出现，本地匹配过程可以无间断地继续。

C. 全局最优匹配子网（如果把这个全局匹配方法换为LightGlue会不会好起来？？？？）

全局匹配是我们采用的另一种匹配方法，作为本地匹配的替代或补充。通过位置、规模和方向不变性的特性，SIFT算法被广泛用于检测和描述图像对的关键点。SIFT提取的每个点可以用一个向量作为特征描述，而两个向量之间的欧几里得距离表示了两点的特征相似性。为了获得可靠的匹配以计算单应性变换矩阵 $T$ ，我们使用K最近邻（K-nearest neighbor）算法来获得每个SIFT点的最佳和次佳匹配。只有最佳匹配点足够好于次佳匹配点（best.distance > 0.6 * secondary.distance），它才能被视为一个可靠的匹配对。然后，我们使用RANSAC（随机抽样一致性）方法来消除匹配对中的错误点，剩下的用于计算单应性变换矩阵 $T$ 。不同于本地匹配方法，全局匹配的兴趣点更多关注于像道路标记或具有明显光影变化的点状物体。这种匹配方法对我们需要检测和追踪的目标并不友好，因为它们总是偏好于地面上的点，而不在地面上的点则没有被适当匹配。正如我们在图 6 中看到的，使用全局匹配的融合图像在交通线方面表现良好，同时对行人和车辆造成了更多的偏差。除此之外，如果我们用一组合适的参数进行全局匹配，它可以给我们一个可靠的匹配结果，无论是否存在常见目标。它不依赖之前的跟踪结果，始终可以使用环境信息计算出一个单应性变换矩阵 $T$ 。然而，这个方法最大的缺点是它的时间消耗。成千上万的SIFT点需要在彼此之间计算匹配距离，而其中很少一部分能够有效匹配。

D. ID分配子网

在ID分配过程之前，我们已经知道了一些匹配点以及变换矩阵 $T_{A \rightarrow B}$ 和 $T_{B \rightarrow A}$ 。ID分配的主要功能是使用变换矩阵来重新组织那些未被匹配的目标的ID标签。这些未匹配的目标由单无人机多目标跟踪器生成，该跟踪器在多无人机操作中没有关联，并且它们可以被分为三类**：新ID、非重叠目标和匹配错误的目标**。新ID的第一类有两种可能性：一种是该目标在一系列帧中首次出现。它可能在两个无人机中都是全新的，或者已经在另一个视图中被跟踪。另一种可能性是跟踪器丢失了之前的目标并重新附上了一个新ID。==无论新ID意味着什么，我们都必须确认它在其他无人机中是否有对应的配对来匹配它们或保持它们未匹配。==如公式（6）所示，有了 $T_{A \rightarrow B}$ 我们可以将无人机A中的 $x_{Aid}, y_{Aid})$ 映射到无人机B中的 $x'_{Aid}, y'_{Aid})$ 。

$\begin{bmatrix} x'_{Aid} \\ y'_{Aid} \\ 1 \end{bmatrix} = T_{A \rightarrow B} \begin{bmatrix} x_{Aid} \\ y_{Aid} \\ 1 \end{bmatrix} =$
$\begin{bmatrix} t_{11} & t_{12} & t_{13} \\ t_{21} & t_{22} & t_{23} \\ t_{31} & t_{32} & t_{33} \end{bmatrix} \begin{bmatrix} x_{Aid} \\ y_{Aid} \\ 1 \end{bmatrix}$

然后我们将 $x'_{Aid}, y'_{Aid})$ 与无人机B中所有被跟踪的目标匹配，以找到最接近的一个，并在满足条件的情况下将它们附上相同的ID，即，

$\begin{cases} B_{index} & (dist(n, m) < dist\_thres) \\ Aid & (dist(n, m) \geq dist\_thres) \end{cases}$

其中 $m = (x_{Bindex}, y_{Bindex})$ 是无人机B中与 $n = (x'_{Aid}, y'_{Aid})$ 匹配的最接近点，该点是从无人机A中的 $x_{Aid}, y_{Aid})$ 映射过来的。 $Aid, B_{index}$ 分别代表无人机A和B中目标的ID标签。访问 $B_{index}$ 依赖于公式（8）。

$dist((x'_{Aid}, y'_{Aid}), (x_{Bindex}, y_{Bindex})) = \min(dist((x'_{Aid}, y'_{Aid}), (x_B, y_B)))$

其中 $B_{index} \in B$ ，'.'表示出现在无人机B中的所有ID， $d i s t (*, *)$ 是边界框中心之间的欧几里得距离。我们使用欧几里得距离而不是交并比作为测量标准，因为我们数据集中的目标在很大范围内变化，使得很难找到一个通用的交并比阈值来定义匹配的接入点。

在上述操作之后，部分新ID可以被转换为匹配的ID，其他则保持未匹配状态。在这些未匹配的ID中，有些独特的目标可能很容易被忽略。在MDMT数据集中，无人机的两个视角总是存在重叠，这产生了匹配目标，而非重叠区域的目标在首次出现时被归类为非重叠目标。当下一帧到来时，新的ID将会匹配它们，以形成匹配对或保持未匹配状态。问题是，如果我们在第一帧给同一个目标分配了不同的ID号，称为匹配错误的目标，它们将被视为非重叠区域的目标，并且除非出现另一个错误，否则永远不会被纠正。另一个情况是我们将两个不同的目标附加了相同的ID。如果我们对此不采取任何措施，这个错误也无法被纠正。为了避免这种情况，我们设置了一个严格的 $dist\_thres$ 来使每个匹配目标无误差（7）。对于那些匹配错误的目标，在下一帧完成新ID的匹配后，我们将它们重新匹配。

除此之外，我们还补充了那些在一个或两个视角中未被跟踪到的物体。我们发现被遮挡的目标难以检测，并且总是附加了一个低置信度分数。这些低分数的边界框将被视为错误检测并在跟踪时被放弃。然而，如果它们在两个视角中都出现，我们重申必须有一个目标不能被忽视。我们将一个视角中未匹配的目标和低分数的边界框映射到另一个视角，并与另一个视角中所有检测到的边界框进行匹配。正如（7）和（8）中所示的相同条件，这些低分数被放弃跟踪过程中的边界框将被重新确认为被遮挡的目标，并被补充到跟踪轨迹中。需要注意的是 $d i s t (*, *)$ 代表两个边界框的IOU。

???

VI. 讨论

多目标多无人机追踪（MTMCT）任务旨在从固定的监控摄像头数据中进行多目标追踪。现有的MTMCT数据集有两个明显的缺点。首先，MTMCT数据集在上下文中的变化较小，并且由于固定监控摄像头，缺乏场景灵活性。另一个不足之处是，现有的MTMCT数据集很少包含重叠区域，因此被遮挡的目标无法从数据集中减轻。与常规的MTMCT任务不同，多无人机多目标追踪任务需要充分利用小规模和灵活性特征。在我们为多无人机多目标追踪任务构建的MDMT中，有大量的小目标和运动情景，这对于对象检测、图像匹配以及目标关联提出了重大挑战。此外，MDMT数据集中的重叠情景将有助于精确协作追踪算法的开发，以及像所提出的MIA-Net这样的方法将进一步刺激图像匹配和目标关联的相关工作。

目标遮挡在计算机视觉领域仍然是一个挑战性问题。尽管一些工作提出了追踪中的轨迹预测等解决方案，但基于单无人机的方法无法解决遮挡的根本问题。我们提出的MDMT数据集，约40%的目标具有遮挡特征，为多无人机多目标追踪提供了一个理想的平台。此外，我们验证了在MIA-Net中使用目标关联和图像匹配来解决遮挡问题的有效性。

多视角协作追踪在视频监控领域具有前景。我们对多无人机多目标追踪的最初意图是利用多视角来弥补单无人机追踪的不足，尤其是在遮挡问题上。然而，考虑到收集多无人机数据集的难度，我们最初从与双无人机任务相关的数据集开始。不过，我们的MIA-Net易于扩展到更多视角，MDA指标也为多视角目标关联而设计。在未来的工作中，我们将深入探讨更多视角的跨无人机关联问题，这将带来更多挑战，包括增加的计算复杂性、严重的跨视角目标转换，以及目标关联的难度。为了实现无人机群智能的目标，探索多视角协作视觉任务的巨大潜力是必要的。

VII. 结论

我们提出了MDMT，一个多无人机多目标追踪数据集，具有遮挡属性，为多无人机检测和追踪领域的研究人员提供了重要的数据平台。为了填补评估指标中跨无人机目标关联的空白，我们设计了多设备目标关联评分（MDA）。此外，我们提出了一个追踪匹配策略，即多匹配身份验证网络（MIA-Net）来执行多无人机多目标追踪任务。本地-全球匹配算法涵盖了跨无人机的目标的拓扑关系，解决了跨无人机追踪的复杂性。为了解决目标遮挡的挑战，我们执行跨无人机目标补充，并通过实验证明了所提策略对抗目标遮挡是有效的。本工作为多无人机多目标检测和追踪提供了一个基准数据集和基线算法，希望能够促进跨无人机关联方法的开发，并激发计算机视觉中解决遮挡问题的有效策略。

Mrwei_418

关注

20
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Robust Multi-Drone Multi-Target Tracking to Resolve Target Occlusion: A Benchmark阅读笔记

多无人机多目标追踪的目标是通过多个无人机的协作来检测和追踪目标，并将不同无人机的物体身份进行关联，这可以克服单一无人机物体追踪的不足。为了解决多无人机多目标追踪任务中身份关联和目标遮挡的关键挑战，我们收集了一个名为MDMT的具有遮挡意识的多无人机多目标追踪数据集。它包含了88个视频序列，共39,678帧，包括11,454个不同的人、自行车和汽车ID。MDMT数据集包含了2,204,620个边界框，其中543,444个边界框包含目标遮挡。
复制链接

扫一扫

专栏目录