ByteTrack Multi-Object Tracking by Associating Every Detection Box

原创

已于 2022-07-27 22:36:02 修改 · 2.6k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#目标跟踪 #人工智能 #计算机视觉

于 2022-07-27 22:15:04 首次发布

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

（ByteTrack：通过关联每个检测盒进行多目标跟踪）

专业名词解释

基础评测指标

1、ID Switches (ID Sw.)

被跟踪目标身份发生错误地更改时被称为身份跳变。在对视频序列的跟踪过程当中，ID Sw.表示所有跟踪目标身份交换的次数。

2、Frames Per Second (FPS)

多目标跟踪器的跟踪速度。

3、False Positives (FP)

在视频序列中不能与真实轨迹的边界框相匹配的假设边界框被称为假阳性；即本来是假的，预测认为是真的。FP 表示整个视频序列中假阳性的数量。

4、False Negatives (FN)

在视频序列中不能与假设边界框相匹配的真实轨迹的边界框被称为假阴性；即本来是真的，预测认为是假的。FN 表示整个视频序列中假阴性的数量。

5、Mostly Tracked tracklets (MT)

在跟踪过程中各个目标至少有 80%的视频帧都能被正确地跟踪的跟踪轨迹数量。

6、Mostly Lost tracklets (ML)

在跟踪过程中各个目标至多有 20%的视频帧能被正确地跟踪的跟踪轨迹数量。

7、Fragments (Frag)

真实跟踪轨迹由于某种原因发生中断并在后来又继续被准确跟踪上被称为跟踪碎片。Frag 表示整个视频序列中碎片的总数。

以上 7 种评测指标主要度量多目标跟踪器的基础性能，其中加粗的比较常用；为了进一步评判多目标跟踪器的综合性能，出现了其他指标。

MOTA、MOTP、 HOTA

CLEAR MOT 指标提出了多目标跟踪精度MOTP和多目标跟踪准确度MOTA 两个综合性的指标，这两个指标能够衡量多目标跟踪器在整体上的性能好坏。

MOTA(Multiple Object Tracking Accuracy) ：MOTA主要考虑的是tracking中所有对象匹配错误，给出的是非常直观的衡量跟踪其在检测物体和保持轨迹时的性能，与目标检测精度无关，MOTA取值小于100，但是当跟踪器产生的错误超过了场景中的物体，MOTA可以变为负数。

MOTP(Multiple Object Tracking Precision) : 是使用bonding box的overlap rate来进行度量（在这里MOTP是越大越好，但对于使用欧氏距离进行度量的就是MOTP越小越好，这主要取决于度量距离d的定义方式） MOTP主要量化检测器的定位精度，几乎不包含与跟踪器实际性能相关的信息。

HOTA（高阶跟踪精度）是一种用于评估多目标跟踪 (MOT) 性能的新指标。它旨在克服先前指标（如 MOTA、IDF1 和 Track mAP）的许多限制。

HOTA 被视为组合3个欠条得分。它将评估跟踪的任务分为三个子任务（检测、关联和定位），并使用 IoU（交集对联合）公式（也称为 Jaccard 指数）计算每个子任务的分数。然后它将每个子任务的这三个 IoU 分数组合成最终的 HOTA 分数。

IDP、IDR、IDF、Re-Id

IDP : 识别精确度

整体评价跟踪器的好坏，识别精确度 IDP 的分数如下进行计算：
在这里插入图片描述

IDR：识别召回率

它是当IDF1-score最高时正确预测的目标数与真实目标数之比，识别召回率 IDR 的分数如下进行计算：
在这里插入图片描述
IDF1：平均数比率

IDF1是指正确的目标检测数与真实数和计算检测数和的平均数比率，这里， IDF1的分数如下进行计算：在这里插入图片描述

上述公式中，IDTP 可以看作是在整个视频中检测目标被正确分配的数量，IDFN 在整个视频中检测目标被漏分配的数量，IDFP 在整个视频中检测目标被错误分配的数量。

Re-Id:行人重识别

MOT17:多目标跟踪数据集

Human in Events(HiEve): 以人为中心的复杂事件的数据集

BDD100K：是伯克利发布的开放式驾驶视频数据集，其中包含10万个视频和10个任务（因为把交通灯的颜色也区分了出来，实际上是13类分类任务），目的是方便评估自动驾驶图像识别算法的的进展。该数据集具有地理，环境和天气多样性，从而能让模型能够识别多种场景，具备更多的泛化能力。

摘要

多目标跟踪（MOT）旨在估计视频中目标的边界框和身份。大多数方法通过关联分数高于阈值的检测框来获得身份。检测分数低的对象，如:被遮挡的物体被简单地扔掉，这带来了不可忽略的真实物体丢失(即假阴)和轨迹的碎片化。为了解决这一问题，我们提出了一种简单、有效和通用的关联方法，即通过关联每个检测框而不是仅关联高分检测框来进行跟踪。对于低分数检测框，我们利用它们与轨迹的相似性来恢复真实对象并过滤掉背景检测。当应用于9种不同的最先进的跟踪器时，我们的方法在IDF1分数上实现了1-10个百分点的提升。为了展示MOT的先进性能，我们设计了一种简单而强大的跟踪器，名为ByteTrack。我们第一次测试，在MOT17的测试集上实现了80.3MOTA，77.3IDF1和63.1 HOTA，在单个V100GPU上的运行速度为30FPS。(注：本文使用的方法即不直接忽略低置信度的检测框，很像最近半监督检测中的一些想法，所以说检测跟踪不分家嘛。)
在这里插入图片描述

图1 MOTA-IDF1-FPS在MOT17测试集上的比较。

横轴为FPS（运行速度），纵轴为MOTA，圆的半径为IDF1。我们的ByteTrack在MOT17测试集上达到80.3MOTA，77.3IDF1，运行速度为30FPS，优于所有以前的跟踪器。详情见表4。

1. 介绍

*** Was vernunftig ist, das ist wirklich; und was wirklich ist, das ist vernunftig.***

（合理的就是真实的，真实的就是合理的） —— G. W. F. Hegel*（黑格尔）

检测跟踪是当前最有效的多目标跟踪(MOT)方法。由于视频场景复杂，探测器的预测往往不完美。最先进的MOT方法需要处理检测盒中的真阳性/假阳性权衡，以消除低置信度检测盒。然而，这是消除所有低置信度检测框的正确方法吗?我们的答案是否定的:正如黑格尔所说:“合理的事物是真实的;真实的才是合理的。”低置信度检测框有时表示物体的存在，例如：被遮挡的物体。对这些目标进行过滤会导致MOT产生不可逆转的误差，并带来不可忽略的缺失检测和碎片轨迹。

图2（a）和（b）显示了这个问题。在图t1中，我们初始化了三个不同的轨迹，因为它们的分数都高于0.5.然而，在第t2 帧和第t3帧中，当遮挡发生时，红色轨迹的相应检测分数变低，例如：0.8到0.4以及0.4到0.1。这些检测框被阈值机制消除，红色轨迹也随之消失。然而，如果我们将每个检测框都考虑在内，就会立即引入更多的假阳。例如：图2（a）第t3 帧中最右边的框。据我们所知，MOT中很少有方法能够处理这种检测难题。

在这里插入图片描述

图2 我们的方法关联每个检测盒的例子。(a)显示了所有的检测框及其分数。(b)显示了通过以前的方法获得的轨迹，它将得分高于一个阈值的检测框关联起来，即0.5。相同的方框颜色表示相同的身份。©显示了用我们的方法得到的轨迹。虚线框表示使用卡尔曼滤波器进行的先前轨迹的预测框。两个低值检测盒与之前基于大IoU的轨迹正确匹配。

在本文中，我们发现可以用轨迹的相似性以实现将低置信度的检测框区分为背景和对象。如图2（c）所示，运动模型的预测框将两个低分数检测框与轨迹匹配，从而正确地恢复对象。同时，背景框被移除，因为它没有匹配的轨迹。

为了在匹配过程中充分利用从高分到低分的检测框，我们提出了一种简单有效的关联方法称其为BYTE，将每个检测框命名为轨迹的基本单元，作为计算机程序中的字节，我们的跟踪方法对每个详细的检测框进行赋值。我们首先根据运动相似性将高分检测框与轨迹匹配。与[7]类似，我们使用卡尔曼滤波器[28]在新帧中预测轨迹的位置。运动相似性可以通过预测框和检测框的IoU来计算。图2（b）正是第一次匹配后的结果。随后，我们在未匹配的轨迹之间执行第二次匹配，例如：红色框中的轨迹，以及低分数检测框。图2（c）显示了第二次匹配后的结果。检测分数低的被遮挡者与之前的轨迹正确匹配，背景被移除。

为了评估我们提出的关联方法的泛化能力，我们将其应用于9种不同的最优秀的跟踪器，包括基于re - id的跟踪器[66,81,32,46]，基于运动的跟踪器[85,68,47]，基于链（chain-based）的[47]和基于注意力的跟踪器[56,76]。我们在几乎所有指标上都取得了显著的改进，包括MOTA、IDF1评分和IDSW。例如，我们将CenterTrack[85]的MOTA从66.1提高到67.4，将IDF1从64.2提高到74.0，并将mo17的半验证集的id从528降低到144[85]。

为了推动MOT最先进的性能，我们提出了一个简单和强大的跟踪器，命名为ByteTrack。我们采用最新的高性能探测器YOLOX[24]来获取检测盒，并将它们与我们提出的BYTE关联。在MOT挑战中，ByteTrack在MOT17[43]和MOT20[16]上均排名第一，在MOT17 V100 GPU上以30 FPS运行速度获得80.3 MOTA, 77.3 IDF1和63.1 HOTA，在拥挤的MOT20上获得77.8 MOTA, 75.2 IDF1和61.3 HOTA。ByteTrack在Hieve[37]和BDD100K[79]跟踪基准测试上也取得了最先进的性能。我们希望ByteTrack的效率和简单性能够使它在社会计算等实际应用中具有吸引力。

我们提出的方法是第一个通过极其简单的运动模型，无需任何Re-ID模块或注意机制而实现高度竞争的跟踪性能的工作[81,32,46,65,76,56]。它阐明了运动线索在处理咬合和长期关联方面的巨大潜力。我们希望ByteTrack的效率和简单性能够使它在实际应用中具有吸引力。
(注:综上所述，作者认为所有的检测框均有一定的存在意义，故此如何合理的区分低置信度检测框就是本文的重点)