这篇文章介绍了一种名为 YOLO11-JDE 的多目标跟踪(MOT)方法,该方法结合了实时目标检测和自监督的重识别(ReID)技术,旨在实现快速且准确的多目标跟踪。以下是文章的主要研究内容总结:
1. 研究背景与动机
-
多目标跟踪(MOT)的重要性:在自动驾驶、视频监控、体育分析和机器人等领域,MOT是一个关键任务,但频繁遮挡、复杂运动模式和实时性能需求是当前的主要挑战。
-
现有方法的局限性:传统的基于检测的跟踪(TbD)方法通常将检测和重识别(ReID)分为两个独立阶段,导致计算成本高且难以扩展。近年来,联合检测与嵌入(JDE)模型通过共享特征和联合优化,显著减少了计算开销,但大多数方法依赖于大规模标记数据集,获取成本高昂。
2. YOLO11-JDE 方法介绍
-
架构设计:YOLO11-JDE 基于高效的 YOLO11 检测器,通过在检测头中加入专门的 ReID 分支,实现了联合检测与嵌入(JDE)。该模型能够为每次检测生成外观特征,同时输出目标类别和边界框。
-
自监督训练策略:该方法采用完全自监督的方式训练 ReID 分支,利用 Mosaic 数据增强技术将多个图像组合在一起,使模型在训练过程中能够学习到多样化的身份特征,无需依赖大规模标记数据集。
-
损失函数设计:使用三元组损失函数,并结合硬正样本和半难负样本挖掘策略,优化区分性嵌入,提升了模型在复杂场景下的鲁棒性。
-
数据关联算法:开发了一种自定义的在线数据关联算法,整合了运动、位置和外观线索,通过优化匹配策略,提高了跟踪精度。
3. 实验与结果
-
数据集与评估指标:在 MOT17 和 MOT20 基准测试集上进行评估,主要使用 HOTA、MOTA 和 IDF1 等指标衡量跟踪精度,同时考虑 FPS(每秒帧数)来评估实时性能。
-
性能表现:YOLO11-JDE 在保持高精度的同时,显著优于现有 JDE 方法,尤其是在 FPS 和参数数量上。该方法是唯一完全自监督的模型,但在身份交换(IDs)和拥挤场景下的表现尤为突出。
-
消融研究:通过一系列消融实验,验证了不同挖掘策略、特征维度、数据集选择和损失权重对模型性能的影响,进一步优化了模型配置。
4. 主要贡献
-
提出了一种轻量级且高效的 JDE 模型 YOLO11-JDE,能够在无需大量标记数据的情况下实现鲁棒的多目标跟踪。
-
通过自监督训练和优化的损失函数设计,显著提升了模型在复杂场景(如拥挤环境)下的性能。
-
开发了一种自定义的数据关联算法,有效整合了运动、位置和外观线索,提高了跟踪精度。
-
在 MOTChallenge 基准测试中,YOLO11-JDE 展示了与现有方法相当的精度,同时在实时性和模型复杂度上具有显著优势。
5. 未来工作
-
进一步改进检测性能,通过优化架构设计更好地解耦 ReID 和检测任务。
-
探索多尺度嵌入融合等技术,以增强 ReID 特征的鲁棒性。
-
研究更强大的数据增强技术,如旋转、剪切和随机擦除,以提升模型的泛化能力。
YOLO11-JDE 通过自监督学习和高效的联合优化,在保持高精度的同时显著提升了多目标跟踪的实时性和可扩展性,为实际应用提供了一种极具吸引力的解决方案。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
1. 引言
多目标跟踪(MOT)是计算机视觉中的一个基础任务,它涉及在视频序列中检测多个目标,并在帧之间保持它们的身份区分。从自动驾驶、视频监控到体育分析和机器人技术,MOT是许多实际应用中的关键组成部分。尽管该领域取得了显著进展,但诸如频繁遮挡、复杂且不可预测的运动模式以及实际场景中对实时性能的需求等因素仍然是挑战。在MOT的不同范式中,基于检测的跟踪(TbD)方法因其模块化和灵活性而成为最广泛使用的方法,它将任务分为两个阶段:在每一帧中检测目标,并在连续帧之间关联这些检测结果以维持身份。许多方法整合了重识别(ReID)嵌入,以简化匹配过程。这些外观线索在涉及遮挡或具有相似运动模式的复杂场景中尤其有价值,因为它们提供了超越空间和时间信息的额外区分层。尽管在检测和ReID领域都取得了实质性进展,但大多数方法采用的是两阶段方法,即分离检测与嵌入(SDE),其中检测和ReID是独立进行的。虽然这种方法有效,但由于缺乏特征共享以及将ReID模型应用于每个边界框的计算成本,导致其可扩展性问题。为解决这些限制,最近的研究引入了联合检测与嵌入(JDE)模型,这些模型将目标检测和ReID特征提取过程统一到一个模型中-。通过在两个任务之间共享特征并联合优化它们,JDE模型显著减少了计算开销,使其成为MOT的一个有吸引力的范式。
1.1 研究动机
JDE模型的联合训练带来了独特的挑战。虽然目标检测侧重于聚类特征以区分目标类别,但ReID需要类内一定的变异性,以便在同类中实现对个体目标的良好区分。这种固有的冲突使得优化过程变得复杂,使得JDE模型中损失函数的选择尤为重要。此外,实现最先进的性能通常需要大规模的标记跟踪数据集进行监督,而这些数据集的获取既昂贵又耗时。在本工作中,我们提出了一个基于流行的Ultralytics框架和最先进的检测器YOLO11的端到端框架,并对其进行修改以执行联合检测和嵌入。为解决联合训练中的固有困难,我们探索了深度度量学习领域,旨在通过使用经过验证的三元组损失函数,在检测和嵌入目标之间取得最佳平衡。此外,为了减少对大量身份标记监督的需求,我们利用了强大的数据增强技术,特别是Mosaic数据增强,使我们的模型能够在完全自监督的设置中有效运行。我们的方法显著减少了参数数量,与现有的JDE方法相比,显著提高了每秒帧数(FPS)。在MOTChallenge基准测试中评估时,YOLO11-JDE在保持高效率的同时展示了竞争性的跟踪精度(见图1),使其非常适合实时MOT应用,其中推理速度和模型大小至关重要。总结来说,我们的主要贡献包括:
-
YOLO11-JDE,一个经过修改的YOLO11s,能够执行JDE,具有小巧、快速且准确的特点。
-
一种基于Mosaic数据增强和三元组损失函数的自监督/半监督训练JDE模型的方法。
-
一个自定义的数据关联算法,整合了运动、位置和外观线索。
2. 相关工作
2.1 基于检测的跟踪
多目标跟踪(MOT)的任务可以根据检测和跟踪任务的结合方式大致分为三类:基于回归的跟踪、基于检测的跟踪和基于注意力的跟踪。然而,基于检测的跟踪(TbD)在研究和实际应用中都因其实用性和广泛使用而脱颖而出。这些跟踪器将MOT分为两个独立的任务:检测和关联。跟踪过程从使用高性能检测器(如YOLOX、Faster RCNN或CenterNet)在每一帧中识别感兴趣的潜在目标开始。然后使用跟踪算法在连续帧之间关联检测到的目标,这些算法利用多种线索(运动、位置、外观等)进行数据关联。由于候选框可以直接由现成的检测器提供,因此TbD方法主要关注提高关联性能。早期方法如SORT使用卡尔曼滤波器预测后续帧中目标的位置,假设线性运动动态。数据关联使用匈牙利算法进行,成本矩阵基于预测和检测到的边界框之间的交并比(IoU)。最近的进展,如ByteTrack,利用所有输出的检测结果,包括低置信度的检测结果,在两阶段级联匹配策略中进行匹配。ConfTrack和BoostTrack进一步引入了新的惩罚和提升方法,分别用于匹配过程中的低置信度和高置信度检测结果。另一个方向上,C-BIoU跟踪器通过添加缓冲区来扩展检测和轨迹的匹配空间,减轻不规则运动的影响。
2.2 重识别
为了更好地处理遮挡、拥挤场景和非线性运动,除了IoU和运动线索外,还常用外观相似性。因此,现代系统(如DeepSORT、BoT-SORT、SMILETrack等)整合了对检测到的目标提取区分性的ReID特征。这些嵌入可以通过使用外部高质量特征提取器(例如FastReID)获得,也可以使用JDE模型(见图2a和2b)。尽管SDE方法取得了优越的性能,但由于特征提取网络需要对每个边界框的图像或特征图裁剪部分进行前向推理,因此计算成本巨大,限制了实时应用。
2.3 联合检测与嵌入
JDE模型在一个网络中执行目标检测和ReID特征提取,以减少推理时间。专注于单次检测器,Wang等人重新设计了YOLOv3的耦合预测头,直接通过1×1卷积层在共享特征上提取512维的嵌入。然而,这种方法忽略了三个任务(检测、ReID和嵌入)之间的固有差异。此外,使用分类方法训练ReID任务,将提取的嵌入输入到共享的全连接层中以输出类别级的logits,然后应用交叉熵损失。在这种方法中,没有身份标记的注释被忽略。CSTrack采用YOLOv5作为检测器,并引入了两个新模块以解耦ReID任务并在不同尺度上融合嵌入。随后的进展,如OMC和TCBTrack,强调了对时间上外观线索的细化。另一方面,FairMOT使用修改版的无锚点检测器CenterNet,输出每个检测的128维特征。与前面提到的方法类似,FairMOT通过分类任务学习ReID特征。除了标准训练策略外,FairMOT还引入了一种针对图像级目标检测数据集的单图像训练方法。每个边界框被分配一个唯一身份,有效地将数据集中的每个目标实例视为一个不同的类别。通过对整个图像应用各种变换,模型在多种条件下接触到每个身份。尽管报告了可接受的结果,但这种自监督方法仅用作预训练,没有进行更深入的探索。QDTrack进一步研究了自监督范式,结合了MixUp和Mosaic变换,以及扩展的InfoNCE损失与正则化项。与此同时,基于CenterNet的其他模型,如RelationTrack和SimpleTrack,专注于解耦两个任务并改进数据关联。更近期的JDE方法,如CountingMOT和UTM,在MOTChallenge基准测试中取得了最先进的性能。前者在FairMOT的基础上增加了一个额外的计数任务,该任务在检测和密度估计分支之间共享,提升了在拥挤场景中的性能。后者将数据关联步骤纳入统一的跟踪器模型中,创建了一个正反馈循环,共同提升了检测和ReID的性能。尽管RetinaTrack是为自动驾驶场景设计的,但其基于RetinaNet的JDE任务实现也值得关注。它使用三元组损失和挖掘硬三元组的方法来执行JDE任务。
3. YOLO11-JDE
在本节中,我们将详细介绍YOLO11-JDE的技术细节,包括其修改后的架构、用于有效以自监督方式训练ReID分支的不同策略,以及将ReID嵌入整合到在线数据关联过程中的方法。
3.1 架构
与相关JDE方法类似,我们的框架基于YOLO系列检测器,通常由用于生成特征图的主干网络、通过融合浅层和深层表示来细化它们的颈部结构,以及三个预测头组成(见图2c)。特别地,我们选择了最先进的YOLO11s版本,因其在效率、准确性和实时性能方面的优势。我们在原始多任务解耦头中加入了一个ReID分支,灵感来源于边界框和分割回归分支的设计。ReID分支通过两个连续的3×3卷积层处理输入特征图,每个卷积层后都跟有批量归一化和SiLU激活函数。第三个1×1卷积层将特征映射到相应的嵌入维度,且不应用批量归一化,遵循在[22]中建议的最佳实践。这种简单而有效的设计允许ReID分支在不引入不必要的复杂性的情况下学习区分性特征,并以与目标检测任务(分类和边界框回归)一致的方式评估任务。因此,YOLO11-JDE为每次检测输出一个外观嵌入,同时预测其类别和边界框(见图2d)。
3.2 自监督训练策略
ReID分支的目标是产生健壮的嵌入,以便在连续帧之间进行数据关联,同时尽量减少对大规模标记跟踪数据集的依赖。为了实现这一目标,我们旨在采用完全自监督的训练方法,灵感来源于FairMOT和QDTrack的工作。我们自监督策略的核心方面是使用Mosaic数据增强技术,这种技术通常用于训练现代目标检测器,如YOLO11。Mosaic增强通过将四个不同的图像块组合成一个输入图像,有效地使模型能够在多样化的变换下查看相同的标识,包括颜色、尺度、旋转等方面的变化。如图3所示,这种方法允许JDE模型通过在训练过程中将多个增强版本的相同标识暴露给模型,从而学习到健壮的特征,几乎无需额外的成本就能为每次检测输出外观特征。尽管我们的方法旨在完全自监督,但它也兼容半监督训练,其中少量标记的跟踪/身份数据可以补充训练过程。这种灵活性确保了框架能够适应具有不同数据可用性水平的场景,这在实际应用中至关重要。
3.3 ReID损失
对于一个给定的训练批次,模型输出N个前景预测,每个预测都有一个与之相关的嵌入,这些嵌入被分配了真实的身份标签。损失函数的目标是将具有相同身份的嵌入(正样本)拉近在特征空间中,同时将不同身份的嵌入(负样本)推远。这种学习范式是深度度量学习的核心概念,其目标是学习一个特征空间,其中距离直接编码数据点之间的有意义关系。ReID任务可以通过分类问题来处理,也可以直接优化嵌入之间的成对相对距离[7]。尽管先进的成对损失函数(如Multi-Similarity、InfoNCE或Angular)在某些任务中提供了更好的性能,但考虑到其简单性、效率和经过验证的有效性,我们选择了三元组损失[23]。三元组损失旨在在正样本和负样本之间强制执行一个边界m,通过确保一个锚点(来自给定身份的样本)与其正样本之间的距离小于与负样本之间的距离。损失函数定义为:
不可行。此外,许多结果三元组不会为模型提供新的信息,从而减缓收敛速度。为解决这些问题,最近在基于对的度量学习方面的进展集中在更具信息量的采样策略上。在我们的设置中,我们使用硬正样本和半难负样本采样策略来获得总共N个三元组,尽管也在第4.3.1节中探索了其他策略。一方面,硬正样本挖掘为每个锚点选择与其最远的具有相同身份的嵌入(最不相似的)。另一方面,半难负样本挖掘选择每个锚点的最难负样本(与不同身份的最相似嵌入),使得该负样本比选定的正样本更远。因此,选择的负样本对既不太容易(相距较远),也不太难(相距较近)。通过使用这些采样策略,我们确保每个三元组都是信息丰富且具有挑战性的,从而加速收敛,提高整体性能,并缓解计算不可行性的问题。
3.4 数据关联
最初,我们采用了FairMOT中使用的两阶段在线数据关联策略。从第一帧中的检测初始化轨迹,并使用运动和外观线索在后续帧中更新轨迹。在第一阶段,使用卡尔曼滤波器预测轨迹的位置,并计算预测和检测到的边界框之间的马氏距离。使用归一化的ReID嵌入计算余弦距离矩阵,并将其与马氏距离融合以获得最终的成本矩阵。使用匈牙利算法确定匹配。在第二阶段,基于边界框的IoU,以更严格的匹配阈值链接未匹配的轨迹和检测。未匹配的检测可以初始化新的轨迹,而未匹配的轨迹持续30帧以处理遮挡。按照[16]中的方法,使用指数移动平均法更新外观特征。在FairMOT的跟踪器基础上,我们为YOLO11-JDE模型实现了一个简单而有效的自定义跟踪器。在第一阶段,使用运动、外观和定位线索的组合匹配高置信度预测。运动与外观融合,同时丢弃低IoU重叠的匹配。然后将IoU距离矩阵与检测的置信度分数结合起来,并丢弃低相似度的匹配。最终成本矩阵是这两个因素的线性组合。对于低置信度预测和未匹配的检测,仅使用IoU进行链接。这种方法在计算简单性与稳健跟踪性能之间取得了平衡。
4. 实验
4.1 数据集和评估指标
在训练用于行人跟踪的JDE模型时,通常会使用七个数据集。检测数据集包括CrowdHuman、ETH和CityPersons,而MOT17、CalTech、CUHK-SYSU和PRW还提供了身份注释。在我们的研究中,我们将仅探索上述目标检测数据集,除了MOT17外,它被添加用于微调模型以进行最终评估。按照之前的工作[50,57],我们使用每个训练序列的后半部分构建了一个MOT17验证集,并删除了与MOT16[40]基准测试重叠的ETH视频。我们在两个广泛认可的基准测试的测试集上评估我们的方法:MOT17和MOT20[14]。对于整体跟踪精度,我们主要依赖HOTA[39],因为它平衡了检测、关联和轨迹质量的评估。然而,我们还考虑了IDF1[46]和MOTA,以提供关于身份保持和整体跟踪性能的额外见解。使用平均精度(AP)在常见的50:95接受IoU阈值范围内评估检测性能。同时,使用聚类指标(如轮廓分数[47]、检索平均精度和更简单的指标,如正负样本的欧几里得距离和余弦距离的平均值)来监控ReID嵌入的质量和训练收敛性。
4.2 实现细节
我们的框架基于Ultralytics基础设施,经过修改以处理JDE任务,包括身份标签管理、新的JDE头、用于监控联合优化的指标和一组新的跟踪算法。此外,使用PyTorch度量学习库[41]实现了JDE损失函数和挖掘策略。身份注释从现有数据集中处理,或者如果没有可用的注释,则合成生成。在数据增强和前景预测对齐期间保留这些注释。所有实验均使用预训练了COCO[36]权重的YOLO11s模型。除了Mosaic外,使用默认的优化和数据增强超参数配置,Mosaic在整个训练过程中应用。
4.3 消融研究
在本节中,我们将对YOLO11-JDE的四个关键因素进行严格的分析,包括ReID损失、外观特征的维度以及所需的训练数据和监督程度。为了隔离和分析这些因素的影响,同时保持计算上的可行性,我们采用了简化的实验设置。具体来说,我们采用YOLO11的小型变体作为基线模型,训练30个周期,批量大小为32。ReID分支使用三元组损失函数,权重为单位权重,并输出128维嵌入。训练数据限于CrowdHuman[49]和MOT17训练部分的检测结果,所有图像均调整为640像素大小。对于验证,使用两个数据集的验证分割来评估检测性能,而ReID性能仅使用MOT17的真实身份标签进行评估。使用FairMOT的默认配置的跟踪器算法用于评估消融,包括1088×608像素的推理分辨率。为了确保全面评估并考虑潜在的因素交互,我们采用了一种顺序方法,其中每个消融的最佳配置用作下一个消融的基线。评估指标以百分比给出。每个消融的最佳结果以粗体显示。
4.3.1 ReID损失
挖掘策略。消融实验从选择三元组损失的最佳挖掘策略开始,使用默认的边界值m=0.05。探索了各种挖掘策略,包括硬、半难和易对的正样本和负样本。结果总结在表1中,表明硬正样本和半难负样本在跟踪精度和ReID嵌入质量方面均取得了最佳性能。这可能是因为它为模型提供了平衡的挑战。半难负样本对于细化决策边界至关重要,同时不会引入训练不稳定性。与此同时,硬正样本迫使模型学习健壮的区分性特征,增强类内一致性。对于负样本,较易的策略很少违反边界条件,导致模型主要关注检测任务,即较高的MOTA。边界值。接下来的实验集中在三元组损失函数中边界值m的影响。如表2所示,围绕基线测试了几个值,m=0.075在HOTA、MOTA和IDF1方面均取得了最佳性能。进行了两次额外的实验,使用这个边界值。首先,交换距离计算(即,如果锚点与负样本之间的距离比正样本与负样本之间的距离违反边界条件更多,则使用正样本与负样本之间的距离)降低了性能,可能是因为它削弱了挖掘策略的影响。其次,通过将Hinge函数替换为Softplus函数来平滑损失函数,导致检测性能显著提高,尽管在HOTA方面略逊一筹。置信度过滤。在边界分析之后,我们研究了在挖掘过程中过滤用于三元组挖掘的嵌入的影响,重点关注基于置信度的选择。默认方法在所有可用嵌入中进行挖掘,确保最大覆盖范围,但可能会包含噪声或低置信度样本。因此,我们尝试将嵌入限制为每批中最自信的75%和50%的预测。结果总结在表3中,表明使用所有预测时模型表现更好。这可能归因于低置信度样本提供的额外多样性,它们可能使ReID分支接触到更广泛的具有挑战性的案例,最终导致更健壮的特征学习。损失权重。最后一组消融实验评估了使用三个不同的权重值对ReID损失的影响。目标是了解在整体多任务目标函数中改变三元组损失的贡献如何影响跟踪性能。表4显示单位权重优于其他配置。在多次实验中观察到一个普遍趋势:损失函数的值越低,检测结果越好。这表明在联合训练过程中,ReID损失中的低但有效的信号对于确保不损害检测任务至关重要。
4.3.2 特征维度
在本小节中,我们研究了改变嵌入特征的维度对联合优化和最终跟踪性能的影响。通过实验64、128和256维的特征,我们旨在确定在提供健壮的身份嵌入和保持计算可行性之间达到最佳平衡的尺寸。如表5所示,128维取得了最佳平衡。64维的尺寸在MOTA上产生了最高值,可能是因为较低的信号损失在联合训练期间有利于检测。相反,将维度增加到256会导致所有指标略有下降,这可能是由于在高维空间中存在过拟合或冗余信息。
4.3.3 训练数据集
为了评估在训练我们的JDE模型时使用的不同类型的监督和数据的影响,我们进行了另一组实验。如表6所示,仅在CrowdHuman上训练的模型取得了较高的MOTA分数,但其较低的HOTA分数反映了微调MOT17的必要性。有趣的是,加入身份监督并没有导致HOTA或IDF1的改进,表明模型有效地使用完全自监督的方法学习了更具区分性的特征。虽然加入额外的数据集,如ETH和CityPersons,增强了检测性能,但它们并没有改善跟踪指标,这突显了微调数据的质量和相关性比数据多样性更为关键。
4.4 数据关联
确定了最有希望的配置后,我们使用批量大小为64的100个周期对模型进行了训练,并将输入图像分辨率设置为1280像素。然后,我们将重点放在微调数据关联步骤中涉及的超参数。本节比较了使用FairMOT跟踪器及其原始参数与针对YOLO11-JDE模型微调的版本的结果,使用MOT17训练分割进行评估。未经调整的默认跟踪器可能会因不匹配的置信度分布和特征表示而挣扎,从而导致次优的数据关联和跟踪精度。如表7所示,针对YOLO11-JDE的具体输出对跟踪器进行微调,显著提高了其整体有效性。此外,自定义的YOLO11-JDE跟踪器在所有指标上均优于FairMOT跟踪器,通过整合运动、外观和定位线索,确保了更精确的数据关联。
4.5 在MOTChallenge上的结果
我们将我们的方法与现有文献进行了比较,重点关注针对实时性能的在线JDE模型。在推理过程中,我们使用了新的YOLO11-JDE跟踪器,输入分辨率为1280像素。在MOT17和MOT20测试集上的结果如表8所示,采用私有检测协议。尽管是唯一完全自监督的方法,YOLO11-JDE在基准测试中表现出了竞争性的性能,并且在FPS方面显著超过了其竞争对手。在身份交换(IDs)方面,YOLO11-JDE优于许多竞争对手,证明了其产生的嵌入的区分能力。因此,我们将其在整体跟踪中的较低性能归因于模型检测能力的限制,而不是其重识别能力。此外,YOLO11-JDE的参数少于10M,而表现最佳的方法(如CountingMOT)依赖于计算成本高昂的检测器,如YOLOX-X(100M参数)或CenterNet(22M参数)。有趣的是,YOLO11-JDE在MOT20上的表现优于MOT17,尽管YOLO11-JDE模型和跟踪器均未使用MOT20数据集进行训练。这种在拥挤场景(见图4)中的改进性能可以归因于训练中使用的数据类型。CrowdHuman数据集的密度接近每张图像23人,经过Mosaic数据增强后,每张图像的人数增加到约90人。这种数据组成使得YOLO11-JDE在处理拥挤场景和部分遮挡时非常健壮。
5. 总结与未来工作
在本工作中,我们提出了YOLO11-JDE,这是一个基于YOLO11s的轻量级高效MOT框架,并配备了用于联合检测和嵌入的ReID分支。我们的方法证明了可以在完全自监督的方式下有效地训练ReID,避免了对身份标记数据集的需求,同时保持了竞争性的跟踪性能。通过结合三元组损失和硬正样本与半难负样本挖掘策略,YOLO11-JDE产生了在各种跟踪场景中都具有鲁棒性的区分性嵌入,尤其是在拥挤环境中。此外,我们开发了一个自定义跟踪算法,该算法整合了运动、外观和位置线索,有效地改进了数据关联,并与YOLO11-JDE的输出无缝对齐。在MOT17和MOT20基准测试上的评估突显了该方法在提供与最先进的模型相当的精度的同时,实现了更高的FPS,并且使用的参数显著减少。这些特性使得YOLO11-JDE成为实际应用中的实用且可扩展的解决方案。
对于未来的工作,我们计划通过改进架构来解决检测性能的局限性,以更好地解耦ReID和检测任务。进一步改进外观特征,例如引入多尺度嵌入融合,可以增强ReID的鲁棒性。此外,我们计划研究更强的数据增强技术的影响,包括旋转、剪切和透视变换、Mixup以及在边界框内的随机擦除。