论文阅读-FairMOT:《A Simple Baseline for Multi-Object Tracking》

最新推荐文章于 2025-02-08 16:26:55 发布

置顶 DJames23

最新推荐文章于 2025-02-08 16:26:55 发布

阅读量1.7w

点赞数 39

分类专栏：论文阅读文章标签：深度学习神经网络

原文链接：https://arxiv.org/abs/2004.01888

版权

论文阅读专栏收录该内容

5 篇文章

订阅专栏

论文地址：https://arxiv.org/abs/2004.01888

摘要

近年来，作为多目标跟踪的核心组件的目标检测和重识别取得了显着进展。但是，很少有人关注在单个网络中完成两项任务以提高推理速度。沿此路径进行的初始尝试最终导致结果降低，这主要是因为未公平(fairly)学习重识别任务而导致了许多身份切换(identity switces)。不公平主要体现在两个方面：(1)re-id任务被作为第二项任务，它的精确度严重依赖于第一项检测任务。所以在训练时严重倾向于检测任务而忽略了re-id任务。(2)使用目标检测中的ROI-Align来提取re-id特征。然而，在描述物体时引进了大量的模糊性，因为很多采样点可能属于干扰实例或背景。为了解决这个问题，我们提出了一个简单的方法–FairMOT，它包含两个均匀的分支来预测像素级目标得分和re-id特征。两个任务的平等学习使得FairMOT达到了检测和跟踪的高水平并且在几个公开数据集上超过了现有的SOTA方法。源码和预训练模型在https://github.com/ifzhang/FairMOT
关键字：一次性MOT，简单基准，无锚点，实时

1 引言

多目标跟踪（MOT）已经成为计算机视觉领域的长期目标[1,2,3,4]。目的是估计视频中多个感兴趣对象的轨迹。成功完成任务可以使许多应用程序受益，例如动作识别，公共安全，运动视频分析，老人护理和人机交互。
现有方法[1,2,3,4,5,6,7]通常通过两个单独的模型解决该问题：检测模型首先通过每一帧的bbox来定位感兴趣物体，然后关联模型为每个边界框提取重标识（Re-ID）特征，并根据在特征上定义的某些度量将其链接到现有轨道之一。近年来，分别在目标检测[8,9,10,11]和Re-ID [3，12]上取得了显着进步，这反过来又提高了跟踪性能。但是，这些方法无法实时执行推理特别在有大量物体的时候，因为两个网络不共享特征并且在视频中需要为每一个bbox提供re-id模型。
随着多任务学习的成熟[13]，联合检测物体并学习Re-ID特征的一键式(one-shot)方法开始引起人们的更多关注[14,15]。比如，Voigtlaender et al. [15]提出在Mask R-CNN顶部添加re-id分支来获得使用ROI-Align得到的proposals的re-ID特征，为re-ID网络重新使用backbone特征减少了推理时间。然而，与两阶段相比，跟踪准确率显著下降。特别地，ID变换大大增加。结果表明，将这两项任务结合起来并非易事，应谨慎对待。我们没有使用大量技巧来提高跟踪准确性，而是研究了失败的原因，并提出了一个简单而有效的基准。确定了对跟踪结果至关重要的三个因素。
在这里插入图片描述
图1.
(a)Track R-CNN将检测作为主要任务，re-ID作为次要任务。Track R-CNN和JDE都是anchor-based。红色框代表正anchors，绿色框代表目标物体。三种方法提取re-ID特征是不同的。Track R-CNN使用ROI-Align为所有正anchors提取re-ID特征。JDE为在所有正anchors的中心点提取re-ID特征。FairMOT在物体中心提取re-ID特征。
(b)红色anchor包含两个不同的实例。所以它将被迫预测两个冲突的类别。
©不同图像patches的三个不同anchors是预测同一身份的响应。
(d)FairMOT仅在物体中心提取re-ID特征并且可以缓解(b)和©中的问题。

1.1 Unfairness Caused by Anchors

（1）当前的单发跟踪器Track R-CNN[15]和JDE[15]都是基于锚的，因为它们是从目标检测器修改而来的，比如YOLO[11]和Mask R-CNN[9]。但是，我们发现anchor-based框架不适合学习re-id特征，尽管有好的检测结果但它导致了大量的ID转换。

re-ID任务回顾

Track R-CNN[15]的操作方式是级联式的，它首先估计目标proposals（boxes），然后将proposals中的re-ID特征汇集起来，估计相应的re-ID特征。值得注意的是re-ID特征的质量严重依赖于proposals的质量。因此在训练阶段，模型严重偏向于估计准确的目标proposals，而不是高质量的re-ID特征。综上所述，这种事实上标准的 "检测为先，re-ID为辅 "的框架，使得re-ID网络无法公平学习。

一个anchor对应多个身份

anchor-based方法通常使用ROI-Pool或者ROI-Align来提取每一个proposal的特征。大部分ROI-Align采样区域可能属于其他干扰实例或者背景，如图1所示。因此，所提取的特征在准确率和辨别地表示目标物体方面并不是最优的。相反，我们在这项工作中发现，只在估计的对象中心提取特征明显更好。

多个anchors对应一个身份

在[15]和[14]中，多个相邻的anchors，对应不同的图像patches，只要它们的IoU足够大，就可能被迫估计相同的身份。这给训练带来了模糊性。如图1所示。另一方面，当图像发生小的扰动时，例如，由于数据增强，有可能同一锚点被迫估计不同的身份。另外，目标检测里的特征图通常8/16/32倍下采样来平衡精度和速度。这对于目标检测是可以接受的，但对于学习ReID特征来说太粗糙了，因为目标中心可能与在粗略锚点位置提取的特征不对齐。

1.2 Unfairness Caused by Features

对于一阶段追踪器，目标检测和re-ID任务共享了大部分特征。但是实际上需要来自不同层的特征来达到最好的结果。特别地，目标检测需要深层和抽象的特征来估计物体的类别和位置，但re-ID更注重低层的外观特征来区分同一类别的不同实例。我们实证发现，多层特征聚合可以有效解决矛盾，让两个任务（网络分支）从多层聚合的特征中提取自己需要的任何特征。没有多层融合，模型将偏向于主检测分支，并产生低质量的re-ID特征。另外，多层融合，融合了来自拥有不同感受野层的特征，同时也提高了处理物体尺度变化的能力，这在实践中是非常常见的。

1.3 Unfairness Caused by Feature Dimension

以前的re-ID工作通常学习非常高维的特征，并在其领域的基准上取得了可喜的成果。然而，我们发现学习低维度的特征更有利于一阶段MOT，主要有三个原因：(1)虽然学习高维度的re-ID特征可能会略微提高其区分物体的能力，但由于两个任务的竞争，它明显损害了物体检测的精度，这反过来也对最终的跟踪精度产生了负面影响。所以考虑到物体检测中的特征维度通常很低(类别+box定位)，我们提出学习低维度的re-ID特征来平衡两个任务；(2)当训练数据较小时，学习低维度的re-ID特征减少了过拟合的风险。MOT数据集通常要比re-ID领域的数据集小很多。所以这有利于减少特征维度。(3)学习低维度的re-ID特征提高了推理速度，如实验所示。

1.4 FairMOT概述

在这项工作中，我们提出了一种被称为FairMOT的简单方法来共同解决三个公平性问题。它区别于先前的“先检测，后re-ID”框架，因为在FairMOT中检测和re-ID任务是同等的。我们的贡献有三个方面。首先，首先，我们实证证明并讨论了之前的一阶段跟踪框架所面临的挑战，这些挑战一直被忽略，但严重限制了其性能。第二，在无锚目标检测方法[10]的基础上，我们引进了一个框架来公平地平衡检测和re-ID任务，明显优于之前的方法。最后，我们提出一种自监督学习方法在大规模检测数据集上训练FairMOT来提高泛化能力。这具有重要的经验价值。
图2展示了FairMOT的概述。它采用了一个非常简单的包含两个分别检测物体和提取re-ID特征的均匀分支的网络框架。受[10],[16],[17],[18]的启发，检测分支是以无锚的方式实现的，它估计物体的中心和大小，以位置感知图来表示。同样，re-ID分支为每个像素估计一个re-ID特征，来描述以该像素为中心的物体。注意到两个完全平等的分支和之前将检测和re-ID级联的方法完全不同。所以FairMOT消除了如表3所示的检测分支不公平的优势，有效地学习高质量的re-ID特征并且对于更好的MOT结果取得了检测和re-ID的平衡。
同样值得注意的是FairMOT在步长为4的高分辨率特征图上操作，而先前的anchor-based方法都是在步长为32的特征图上操作。无锚框并使用了高分辨率的特征图更好地将re-ID特征对齐到物体中心，这显著提高了跟踪准确率。re-Id特征维度仅被设置为64，不仅减少了计算时间并通过在检测和re-ID任务之间取得良好的平衡提高了跟踪鲁棒性。我们使用骨架网络[19]和深层聚合网络[20]来融合来自多层的特征以便同时容纳两个分支和处理不同尺度的物体。
我们通过评估服务器在MOT挑战基准上评估了FairMOT。在2DMOT15[21]，MOT16[22]，MOT17[22]和MOT20[23]数据集上，在所有跟踪器中排名第一。当进一步使用我们提出的自监督学习方法来预训练，模型时，在所有的数据集上都得到了额外的收益。尽管结果很好，但方法非常简单，并且在单个RTX 2080Ti GPU上可以以30fps运行。它揭示了MOT中检测和re-ID之间的关系，并为设计一阶段视频跟踪网络提供了指导。

2 相关工作

我们首先回顾MOT的相关工作，包括深度学习和非深度学习方法。然后我们简要讲述视频物体检测因为它也和目标跟踪相关。我们讨论了这些方法的利弊(pros and cons)，并将其与我们的方法进行比较。

2.1 非深度学习MOT方法

多目标跟踪(MOT)可以分为在线方法[1],[24],[25],[26],[27]和批量(batch)法[28],[29],[30],[31],[32],[33],取决于是否依赖于未来帧。在线方法只能使用当前帧和之前的帧，批量法可以使用整个序列。
大部分在线方法假定目标检测是可获得的并且关注数据关联步骤。比如，SORT[1]首先使用卡尔曼滤波[34]来预测未来的物体位置，计算它们与未来帧中检测到的物体的重合度，最后采用匈牙利算法[35]来做跟踪。IOU-Tracker[24]直接通过它们的空间重合度而未使用卡尔曼滤波关联相邻帧的检测并达到了100k fps的推理速度(没有计算检测时间).由于简单性SORT和IOU-Tracker被广泛用于实践。但是在具有挑战性的场景如拥挤场景和快速相机运动的场景会失败，因为它们缺乏re-ID特征。Bae et al. [26]提供了线性判别分析(Linear Discriminant Analysis)来为物体提取re-ID特征，达到了鲁棒的跟踪结果。Xiang et al.[25]将在线MOT制定为马尔科夫决策过程(Markov Decision Processes，MDP)，并利用在线单一目标跟踪和强化学习来决定轨迹小体的出生/死亡和出现/消失。
批量法在整个序列上有高效地全局优化，它比在线法有更好的结果。比如，Zhang等[28]建立了一个图模型，节点代表多目标跟踪所有帧中的检测。使用最小成本流算法搜索全局最优，该算法利用图的特定结构，比线性规划更快地达到最优。Berclaz等人[29]也将数据关联作为流量优化任务，并采用K-最短路径算法进行求解，大大加快了计算速度，减少了需要调整的参数。Milan等人[31]将多目标跟踪表述为一个连续的能量的最小化，并着重于设计能量函数。能量取决于所有帧中所有目标的位置和运动以及物理约束。

2.2 深度学习MOT方法

深度学习的快速发展促使研究人员探索现代目标检测器，而不是使用基准数据集提供的基线检测结果。比如，一些最好的方法[2],[4],[5],[6],[7]将目标检测和re-ID作为两个分开的任务。首先使用基于CNN的目标检测器比如Faster R-CNN[8]和YOLOv3[11]来定位输入图片感兴趣的所有物体。然后在另一个步骤中，根据检测框来裁剪图片并把它们喂到一个身份嵌入网络来提取re-ID特征，用于随着时间推移来链接检测框。链接步骤通常遵循标准的做法，首先根据bbox的re-ID特征和交并比(IoU)计算成本矩阵，然后使用卡尔曼滤波[34]和匈牙利算法[35]来完成链接任务。一小部分工作如[5],[6],[7]提出使用更复杂的关联策略，如组模型和RNNs。
两步方法的优点在于，它们可以针对每个任务分别使用最合适的模型，而不会做出折衷。此外，他们可以根据检测到的边界框裁剪图像补丁，并在估计Re-ID特征之前将其调整为相同大小。这有助于处理目标的比例变化。因而这些方法[4]在公共数据集上取得了最佳性能。但是，它们通常非常慢，因为这两个任务需要单独完成而没有共享。因此，很难实现许多应用中所需的视频速率推断。
随着深度学习中多任务学习的成熟[13,36,37]，一阶段MOT已开始引起更多研究关注。核心思想是在单个网络中同时完成目标检测和身份嵌入（re-ID特征），以通过共享大部分计算来减少推理时间。例如，Track-RCNN [15]在Mask-RCNN [9]的顶部添加了一个Re-ID头，并为每个proposal回归了边界框和一个re-ID特征。 **JDE [14]是在YOLOv3 [11]**上构建的，该框架可实现接近视频速率的推断。但是，一阶段方法的跟踪精度通常低于两阶段方法的跟踪精度。
我们的工作也属于一阶段跟踪器，和之前的工作不同，我们深入研究了失败背后的原因并发现re-ID任务在三个方面与检测任务相比都是不公平的。基于此，我们提出FairMOT，在两个任务之间达到了较好的平衡。我们表明，在不需要做大量工程工作的情况下，跟踪精度得到了显著提高。
视频目标检测(Video Object Detection，VOD)与MOT有一定的关系，它利用目标跟踪来提高具有挑战性的帧中的目标检测能力[38]，[39]。比如，Tang等[40]检测视频中的目标tubes，其目的是根据其相邻帧来提高具有挑战性的帧的分类分数。在基准数据集上，小物体的检测率增加了很多。类似的想法在[40]、[41]、[42]、[43]、[44]中也进行了探索.这些基于tube的方法的一个主要局限性是它们的速度非常慢，尤其是在视频中有大量物体的情况下。

我们的方法的概述如图2所示。我们首先采用无锚对象检测方法来估计高分辨率特征图上的对象中心[44,17,45,9]。消除锚点减轻了歧义性问题，并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。然后，我们添加了一个并行分支，用于估算用于预测对象身份的逐像素Re-ID特征。特别是，我们学习了低维Re-ID特征，这些特征不仅减少了计算时间，而且提高了特征匹配的鲁棒性。我们为骨干网[13]配备了“深层聚合”运算符[41]，以融合来自多个层的要素，以便处理不同规模的对象。
在这里插入图片描述
图2-一阶段跟踪器FairMOT概述。首先将输入图像馈送到编码器-解码器网络，以提取高分辨率特征图（步幅= 4）。然后我们增加两个均匀分支，分别用于检测对象和提取re-ID特征。预测对象中心处的特征用于跟踪。

我们发现这是因为学习到的Re-ID功能不是最佳的，这会导致大量的ID切换。我们深入研究了原因，发现在锚点提取的身份嵌入特征与对象中心不对齐，这导致了严重的歧义。为了解决该问题，我们建议对对象检测和身份嵌入使用无锚方法，这可以显着提高所有基准上的跟踪精度。

3 技术方法

在本节中，我们分别介绍FairMOT的骨干网络，物体检测分支和Re-ID特征嵌入分支的详细信息和训练细节。

3.1 骨干网络

我们采用ResNet-34 [13]作为我们的骨干，以便在准确性和速度之间取得良好的平衡。为了适应不同规模的对象，如图2所示，将深层聚合（DLA）[10]的一种变体应用于骨干网。与原始DLA [20]不同，它在低层聚合和低层聚合之间具有更多的跳跃连接，类似于特征金字塔网络（FPN）[45]。此外，上采样模块中的所有卷积层都由可变形的卷积层代替，以便它们可以根据物体的尺寸和姿势动态调整感受野。这些修改也有助于减轻对齐问题。生成的模型名为DLA-34。将输入图像的大小表示为Himage×Wimage，然后输出特征图的形状为C×H×W，其中H = Himage / 4和W = Wimage / 4。除了DLA，其他提供多尺度卷积特征的深度网络，如Higher HRNet[46]，也可以在我们的框架中使用，为检测和重新识别提供公平特征。

3.2 目标检测分支

检测分支基于CenterNet[10]但其他无锚方法比如[16],[18],[47],[48]都可以使用。我们简单介绍一下使这项工作自成体系的方法。特别地，在DLA-34中附加了三个平行的头，分别用来估算热图、目标中心偏移和bbox尺寸。~~我们将对象检测视为高分辨率特征图上基于中心的包围盒回归任务~~ 。通过对DLA-34的输出特征图应用3×3卷积（具有256个通道）来实现每个head，然后通过1×1卷积层生成最终目标。

3.2.1 Heatmap Head

这个head负责估计对象中心的位置。这里采用基于热图的表示法，这是界标点估计任务的事实上的标准（de facto standard for the landmark point estimation task）。 尤其是，热图的尺寸为1×H×W。如果热图随真是物体中心崩溃（ collapse），则在热图中某个位置的响应预计为1。随着热图中位置和对象中心之间的距离，响应呈指数衰减。
在这里插入图片描述
损失函数定义为具有焦点损失（ focal loss）的像素级逻辑回归（ pixel-wise logistic regression）[49]：

3.2.2 Box Offset and Size Heads

框偏移head目的是更精确地定位对象。由于特征图的跨度为4，这将引入不可忽略的量化误差。该分支估计每个像素相对于对象中心的连续偏移，以减轻下采样的影响。框尺寸head负责估计每个位置上的目标边界框的高度和宽度。
在这里插入图片描述
请注意，对象检测性能的优势可能很小。但是对于跟踪至关重要，因为应根据准确的对象中心提取Re-ID功能。我们在实验中发现，ReID功能与对象中心的仔细对齐对于性能至关重要。

3.3 Re-ID分支

re-ID分支的目标是生成可以区分不同对象的特征。理想情况下，不同目标之间的距离应大于同一目标之间的距离。为了实现该目标，我们在主干特征之上应用了具有128个内核的卷积层，以提取每个位置的身份嵌入特征。生成的特征图为E∈R^128×W×H。从特征图中提取目标中心在（x，y）处的Re-ID特征Ex,y∈R¹²⁸。

3.3.1 Re-ID Loss

我们通过一个分类任务来学习re-ID特征。训练集中具有相同身份的所有目标实例都被视为相同类别。在这里插入图片描述
在我们的网络训练过程中，只使用位于目标中心的身份嵌入向量用来训练，因为在测试时我们可以从目标热图中获得目标中心。

3.4 训练FairMOT

加入以上三个损失后联合训练检测和re-ID分支。特别地，我们使用在[50]中提出的不确定损失(uncertainty loss)来自动平衡检测和re-ID任务：
在这里插入图片描述
具体来说，给定一张有几个目标及其对应ID的图像，我们会生成GT热图、box偏移和尺寸图以及目标的独热类别表示。这些与估计方法进行比较，以获得训练整个网络的损失。
另外为了标准地训练前面提到的策略，我们提出了一个弱监督的学习方法在图像级别的目标检测数据集如COCO上训练FairMOT。受[51]的启发，我们将数据集中的每个目标实例视为一个独立的类，同一目标的不同变换视为同一类中的实例。采取的变换包括HSV增强，旋转，裁剪，平移和剪切。我们在CrowdHuman数据集[52]上预训练模型然后在MOT数据集上微调。有了这种自监督学习方法，我们进一步提高了最终结果。

3.5 Online Tracking

在本节中，我们将说明模型在线推理以及如何进行检测和re-ID特征的关联。

3.5.1 Network Inference 网络推理

网络使用大小为1088×608的图像作为输入，与先前的工作JDE [14]相同。在预测的热图之上(top)，我们根据热图得分执行非极大值抑制（NMS），以提取峰值关键点。我们保留热点图得分大于阈值的关键点的位置。然后，我们根据估计的偏移量和框大小来计算相应的边界框。我们还在估计的目标中心提取身份嵌入。在下一节中，我们将讨论如何使用re-ID特征将检测到的box随时间的推移进行关联。

Online Association 在线关联

我们使用标准的在线跟踪算法来实现链接boxes。我们根据第一帧中的估计框来初始化多个小轨迹。然后在随后的帧中，我们根据 Re-ID 特征上计算出的余弦距离和它们的双向匹配的box重合度，将检测到的boxes与现有的tracklets连接起来[35]。我们还使用卡尔曼滤波预测tracklet在当前帧中的位置。如果距离链接的检测距离太远，我们会将相应的成本设置为无穷大，这样可以有效地防止将检测与较大的运动链接在一起。我们按照每个步骤更新跟踪器的外观特征，以处理外观变化，如[53,54]中所述。

4 实验

4.1 数据集和标准

下面简要介绍6个训练数据集：ETH [55]和CityPerson [56]数据集仅提供边界框注释，因此我们仅用来训练检测分支。CalTech [57]，MOT17 [22]，CUHK-SYSU [58]和PRW [12]数据集提供边界框和身份注释，我们在其上训练检测和身份嵌入分支。由于ETH数据集中的一些视频也出现在MOT16数据集的测试集中，因此我们将它们从训练数据集中删除以进行公平比较。总的训练策略在第3.4节中描述，和[14]中相同。对于自监督训练，我们使用只包含目标包围框注释的CrowdHuman[52]数据集。
我们通过组合来自六个公共数据集的训练图像进行人体检测和搜索，组成了一个大型训练数据集。特别是，在一些烧蚀(ablative)实验中，我们建议在较小的数据集上训练我们的模型，以节省计算成本，这将在后面进行详细描述。
我们在四个基准的测试集上广泛评估了我们方法的各种因素：2DMOT15，MOT16，MOT17和最近发布的MOT20。遵循MOT的通常做法，我们使用平均精度（AP）评估检测性能，和假接受率为0.1的真阳性率(TPR)来严格评估GT检测的re-ID特征。我们使用CLEAR度量[2]和IDF1 [28]来评估跟踪精度。

4.2实施细节

我们使用[44]中提出的DLA-34变体作为我们的默认主干。在COCO检测数据集[21]上预先训练的模型参数用于初始化我们的模型。我们使用Adam优化器对模型进行了30个epoch的训练，起始学习率为
1e-4。学习率分别在20个epoch下降到1e-5。 batch size设置为12。我们使用标准的数据增强技术，包括旋转，缩放和颜色抖动。输入图像的大小调整为1088×608，特征图的分辨率为272×152。两个RTX 2080 GPU的训练时间约为30小时。

4.3 Ablative Study 烧蚀研究

在本节中，我们通过精心设计一些基线方法，对FairMOT中的无锚re-ID特征提取、特征融合和特征维度等三个关键因素进行了严格的研究。

4.3.1 Anchor-based vs. Anchor-free/Fairness Issue in Anchors

我们评估了四种从检测到的box中取样re-ID特征的策略，这四种策略是以前的工作[14][15]经常使用的。第一种策略是Track R-CNN中使用的ROI-Align。使用ROI-Align从检测到的提议proposals中采样特征。如前所述，许多取样位置偏离了目标中心。第二种策略是JDE[14]中使用的POS-Anchor。它从也可能偏离目标中心的正(positive)锚中提取特征。第三种策略是FairMOT中使用的"Center"。它只从目标中心采样特征。回顾一下，在我们的方法中，re-ID特征是从离散的低分辨率特征图中提取的。为了在准确的物体位置上采样特征，我们还尝试应用双线性插值（Center- BI）来提取更准确的特征。
我们还评估了两阶段方法，首先检测目标边界框然后提取re-ID特征。在第一个阶段，检测部分和FairMOT相同。在第二阶段，我们使用ROI-Align[9]根据检测到的边界框提取骨干特征，然后使用re-ID头（全连接层）得到re-ID特征。
结果展示在表1中。注意5个方法都是建立在FairMOT之上。区别仅在于怎么从检测框中采样re-ID特征。首先，我们的方法(Center)比ROI-Align、POS-Anchor和两阶段方法获得的明显更高的IDF1得分和TPR(True Positive Rate)。该指标与目标检测结果无关，忠实地反映了re-ID特征的质量。另外，ID变换的数量明显少于这两个基准。这个结果验证了在目标中心采样要比之前的策略更加有效。双线性插值(Center-BI)比Center达到了更高的TPR因为它是在更加准确的位置采样。两阶段的方法伤害了re-ID的质量。
在这里插入图片描述

4.3.2 Fairness Issue in Features

我们旨在研究多层特征融合在解决特征中的不公平问题的有效性。为此，我们对初始ResNet[19]、特征金字塔网络(FPN)[45]、高分辨率网络(HRNet)[63]和DLA-34[10]等多个骨干网络在re-ID特征和检测精度方面进行了比较。需要注意的是，为了公平比较，这些方法的其余因素如训练数据集等都控制在相同的范围内。特别是，所有方法的最终特征图的步幅都是4。我们为vanilla ResNet增加了三次上采样操作，以获得跨度为4的特征图。
结果如表2所示。通过比较ResNet-34和ResNet-50的结果，我们出人意料地发现，使用更大的网络只是稍微改善了MOTA测量的整体跟踪结果。特别是，re-ID特征的质量几乎没有从更大的网络中获益。例如，IDF1仅从67.2%提高到67.7%，TPR分别从90.9%提高到91.9%。此外，ID交换的数量甚至从435增加到501。所有这些结果都表明，使用更大的网络对最终的跟踪精度增加的数值非常有限。
相比之下，ResNet-34-FPN的参数实际上比ResNet-50少，但却取得了比ResNet-50更大的MOTA得分。更重要的是，TPR从90.9%显著提高到94.2%，这说明多层特征融合比单纯使用大网络有明显优势。此外，同样建立在ResNet- 34之上，但具有更多层次特征融合的DLA-34，取得了更高的MOTA分数。特别是TPR从90.9%显著提高到94.4%，进而将ID切换次数（ID）从435次降低到299次。结果验证了特征融合(包括FPN和DLA)有效地提高了re-ID特征的分辨能力。另一方面，虽然ResNet-34-FPN获得了与DLA-34同样好的re-ID特征(TPR)，但其检测结果(AP)明显差于DLA-34。我们认为在DLA-34中使用可变形卷积是主要原因，因为它可以为不同尺寸的物体提供更灵活的感受野–这对我们的方法非常重要，因为FairMOT只从物体中心提取特征而不使用任何区域特征。当把DLA-34中所有的可变形卷积替换为正常卷积时，我们只能得到65.0 MOTA和78.1 AP。如表4所示，我们可以看到DLA-34在中大尺寸物体上的表现主要优于HRNet-W18。
为了验证检测和re-ID任务之间是否存在特征冲突，我们引入了一个基线ResNet- 34-det，它只训练检测分支（re-ID分支是随机初始化的）。从表3中我们可以看到，如果我们不训练可以显示两个任务之间冲突的re-ID分支，AP测得的检测结果会有较大的改善。特别是ResNet-34-det甚至比ResNet-34获得了更高的MOTA得分，因为该指标有利于更好的检测而不是跟踪结果。相反，在ResNet-34的基础上增加了多层特征融合的DLA- 34，在检测以及跟踪结果上都取得了更好的成绩。这意味着多层特征融合有助于缓解特征冲突问题，允许每个任务从融合后的特征中提取自己任务所需的任何东西。
在这里插入图片描述

4.3.3 Fairness Issue in Feature Dimensionality

以往的单发追踪器通常按照两步法学习512维的re-ID特征，而不进行消融研究。然而，我们在实验中发现，特征维度实际上在平衡检测和跟踪精度方面起着重要作用。学习较低维度的re-ID特征对检测精度的伤害较小，并且提高了推理速度。
我们在表5中评估了re-ID特征维度的多种选择。我们可以看到，512达到了最高的IDF1和TPR得分，这说明高维度的re-ID特征会带来更强的辨别能力。然而，令人惊讶的是，当我们将维度从512降低到64时，MOTA得分却一直在提高。这主要是由检测和re-ID任务之间的冲突造成的。特别是，我们可以看到，当我们减少re-ID特征的维度时，检测结果(AP)会有所改善。在我们的实验中，我们将特征维度设置为64，这在两个任务之间取得了很好的平衡。
在这里插入图片描述

4.3.4 Data Association Methods

本节评估数据关联步骤中的三种成分，包括边界框IoU、re-ID特征和卡尔曼滤波[34]。这些都是用来计算每对检测到的boxes之间的相似度。我们使用匈牙利算法[35]来解决分配问题。表6显示了结果。我们可以看到，只使用box IoU会导致大量的ID切换。这对于拥挤的场景和快速的摄像机运动尤其如此。单独使用re-ID特征可以显著提高IDF1，减少ID切换次数。此外，加入卡尔曼滤波有助于获得平滑（合理）的轨迹小片，从而进一步减少ID切换次数。当一个物体被部分遮挡时，其re-ID特征变得不可靠。在这种情况下，利用box IoU、re-ID特征和卡尔曼滤波来获得良好的跟踪性能是非常重要的。
在这里插入图片描述

4.3.5 Visualization of Re-ID Similarity

我们在图3中使用re-ID相似度图来展示re-ID特征的分辨能力。我们从验证集中随机选择两个帧。第一帧包含查询实例，第二帧包含具有相同ID的目标实例。我们通过计算查询实例的re-ID特征和目标帧的整个re-ID特征图之间的余弦相似度来获得re-ID相似度图，分别在4.3.1节和4.3.2节中描述。通过比较ResNet-34和ResNet-34-det的相似度图，我们可以看出训练re-ID分支是很重要的。通过比较DLA-34和ResNet-34，我们可以看到多层特征聚合可以得到更多的辨识度的re-ID特征。在所有的采样策略中，提出的Center和Center-BI可以更好地在拥挤的场景中分辨出目标物体和周围物体。
在这里插入图片描述
图3-可视化的re-ID特征的判别能力。查询实例被标记为红色框，目标实例被标记为绿色框。使用基于不同策略（如第 4.3.1 节所述的中心、中心-BI、ROI-Align 和 POS-Anchor）和不同骨架（如 ResNet-34 和 DLA-34）提取的 re-ID 特征来计算相似度图。查询帧和目标帧从MOT17-09和MOT17-02序列中随机选择。

4.4 Self-supervised Learning

我们首先在CrowdHuman数据集[52]上对FairMOT进行预训练。特别是，我们为每个边界框分配一个唯一的身份标签，并使用3.4节中描述的方法训练FairMOT。然后我们在目标数据集MOT17上对预训练的模型进行微调。表7显示了结果。首先，在CrowdHuman上通过自我监督学习进行的预训练比在MOT17数据集上直接训练的效果要好很多。其次，自我监督学习模型甚至优于在 "MIX "和MOT17数据集上训练的完全监督模型。结果验证了所提出的自监督预训练的有效性，节省了大量的标注工作，使得FairMOT在实际应用中更具吸引力。
在这里插入图片描述

4.5 Results on MOTChallenge

我们将我们的方法与最先进的(SOTA)方法进行比较，包括单步法和两步法。

4.5.1 Comparing with One-Shot SOTA MOT Methods

目前只有JDE[14]和Track- RCNN[15]两部已发表的作品联合进行目标检测和身份特征嵌入。我们将我们的方法与这两部作品进行比较。按照之前的工作[14]，测试数据集包含2DMOT15的6个视频。FairMOT使用的训练数据与他们论文中描述的两种方法相同。特别是，当我们与JDE比较时，FairMOT和JDE都使用了4.1节中描述的大规模组成数据集。
由于Track R-CNN需要分割标签来训练网络，所以它只使用MOT17数据集的4个视频，其中有分割标签作为训练数据。在这种情况下，我们也使用这4段视频来训练我们的模型。使用CLEAR指标[59]和IDF1[60]来衡量其性能。
结果如表8所示。我们可以看到，我们的方法明显优于JDE[14]。特别是，ID开关的数量从218个减少到80个，在用户体验方面有很大的改善。这些结果验证了无锚方法比之前基于锚的方法的有效性。两种方法的推理速度都接近视频速率，我们的速度更快。与Track R-CNN[15]相比，他们的检测结果略优于我们的检测结果（FN较低）。然而，FairMOT实现了更高的IDF1得分（64.0 vs. 49.4）和更少的ID切换（96 vs. 294）。这主要是因为Track R-CNN遵循 "检测优先，重ID次之 "的框架，并使用锚，这也为重ID任务引入了模糊性。
在这里插入图片描述

4.5.2 Comparing with Two-Step SOTA MOTMethods

我们将我们的方法与最先进的跟踪器进行比较，包括表9中的两步法。由于我们不使用公共检测结果，所以采用了 "私人检测器 "协议。我们分别报告了2DMOT15、MOT16、MOT17和MOT20数据集的检测结果。需要注意的是，所有结果都是直接从MOT挑战赛官方评测服务器获得的。
在四个数据集上，我们的方法在所有在线和离线跟踪器中排名第一。特别是，它的性能大大超过了其他方法。这是一个非常强大的结果，尤其是考虑到我们的方法非常简单。此外，我们的方法还实现了视频速率推理。相比之下，大多数高性能的跟踪器，如[4]、[7]通常比我们的跟踪器慢。
在这里插入图片描述

4.5.3 Training Data Ablation Study

我们还使用不同数量的训练数据来评估FairMOT的性能。当只使用MOT17数据集进行训练时，我们可以实现69.8 MOTA，这已经超过了使用更多训练数据的其他方法。当我们使用与JDE[14]相同的训练数据时，我们可以实现72.9 MOTA，明显优于JDE。此外，当我们在CrowdHuman数据集上进行自我监督学习时，MOTA得分提高到73.7。结果表明，我们的方法不需要大量数据，这在实际应用中是一个很大的优势。

4.6 Qualitative Results

图4直观地展示了FairMOT在MOT17[22]测试集上的几个跟踪结果。从MOT17-01的结果可以看出，当两个行人相互交叉时，我们的方法可以借助高质量的re-ID特征分配正确的身份。使用边界框IOUs[1]、[24]的跟踪器通常会在这些情况下引起身份切换。从MOT17-03的结果可以看出，我们的方法在拥挤的场景下表现良好。从MOT17-08的结果可以看出，当行人被严重遮挡时，我们的方法可以同时保持正确的身份和正确的边界框。MOT17-06和MOT17-12的结果表明，我们的方法可以处理大尺度的变化。这主要归功于多层特征聚合的使用。MOT17-07和MOT17-14的结果表明，我们的方法可以准确地检测到小型物体。
在这里插入图片描述
图4 我们的方法在MOT17测试集上的跟踪结果示例。每一行都显示了按时间顺序对一个视频序列进行采样的帧的结果。在图像中标记了边界框和身份。不同颜色的边界框代表不同的身份。以彩色观看效果最佳。

5 结论

从研究为什么以前的单步法（如[14]）不能达到与两步法相当的结果开始，我们发现在目标检测和身份嵌入中使用锚是导致结果降低的主要原因。特别是，多个附近的锚点，对应于一个目标的不同部分，可能负责估计同一个身份，这导致网络训练的模糊性。此外，我们还发现了以往MOT框架中检测和重新识别任务之间的特征不公平问题和特征冲突问题。通过在无锚单步深度网络中解决这些问题，我们提出了FairMOT。在几个基准数据集上，它的跟踪精度和推理速度都大大优于之前的最先进方法。此外，FairMOT本质上是训练数据高效的，而且我们提出只使用边界框标注的图像进行多目标跟踪器的自我监督训练，这都使得我们的方法在实际应用中更具吸引力。