DeepMOT: A Differentiable Framework for Training Multiple Object Trackers

最新推荐文章于 2024-04-17 10:02:18 发布

橘子辉煌鸭

最新推荐文章于 2024-04-17 10:02:18 发布

阅读量5.6k

点赞数 1

分类专栏： deepMOT

本文链接：https://blog.csdn.net/weixin_43256434/article/details/95965059

版权

deepMOT 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

摘要：
MOTA，MOTP是多目标跟踪的的评价标准。它们专门用于编码MOT挑战和困难。基于MOTA和MOTP直接优化跟踪器是困难的，因为这两个指标都非常依赖匈牙利算法，这是不可微分的。我们提出MOTA、MOTP的可微分代理，这使得可以通过MOT的测量标准来训练直接优化深度MOT。所提出的近似是基于双向递归网络，其输入对象到假设距离矩阵并输出最优假设 - 对象关联，从而模拟匈牙利算法。在可微分模块之后，估计的关联用于计算MOTA和MOTP。实验研究证明了这种可区分框架对两个最近的深度跟踪器相对于MOT17数据集的好处。
代码：https://gitlab.inria.fr/yixu/deepmot.

1.Introduction

视觉跟踪的大多数研究涉及单目标跟踪（SOT），其中主要困难是（i）目标动态的正确建模和（ii）鲁棒外观模型的学习。除了单对象跟踪的挑战之外，多目标跟踪的复杂性还以数据到轨道分配问题为特征。
传统的对关联问题的方法是匈牙利和Munkres算法。但是它们都不能表示为输入距离矩阵的可微函数。
我们使用递归神经网络，我们称之为深度匈牙利网络（DHN）。经过训练，DHN可以以两种不同的方式使用。首先，提供最佳的轨道 - 地面真值分配的近似值，这是可微分的。距离矩阵（从而近似于MOTA和MOTP直接训练深度MOT）。其次，将任何可完全训练的深单对象跟踪器转换为深度多对象跟踪器。实际上，轨道可以从纯粹的MOT方法，从并行运行的几种SOT方法，或从并行工作的MOT和SOT方法的任何组合推断出来。

3. Problem Formulation

MOT在每个时间对所有目标预测轨迹包括bunding box、分配ID。
随着深度学习的出现，人们用深度神经网络处理MOT，主要通过构建捕获关于运动，外观和/或对象交互的信息的鲁棒模型。然而e2e的训练框架没有出现。我们提出了一个深匈牙利网络，或DHN，可以看作是一个近似于匈牙利算法的可微函数。通过这种方式，完整的管道是可微分的，并且（近似的）MOT损失的梯度可以反向传播到任何可训练的MOT方法。

4. Methodology

在这里插入图片描述
图1显示了所提方法的概述。以视频序列中的行人跟踪为例，在t时刻，几个单目标跟踪器用于跟踪多目标。提供Nt个估计bounding box（e-bb），然后将这些估计值与Mt地面真值边界框（gt-bb）进行比较。这些成对的距离储存在距离矩阵之中在这里插入图片描述。然后使用所提出的深匈牙利网络来估计最佳软分配矩阵最后，MOTA和MOTP，的预期值由At和Dt计算。如果用于计算这些预期值的所有septs都是可微分的，那么我们将能够通过直接优化来训练跟踪网络。

4.1. MOT Pipeline

4.1.1 MOT by SOT

在t时刻，对n个人，参考图像在这里插入图片描述跟踪，编码要跟踪的目标的外观信息和搜索图像这些跟踪器关键点是从Rtn提取视觉特诊，将它们作为卷积核对Stn的视觉特征进行卷积。然后输出ebb。搜索区域从之前的box获取，假设目标没有移动很多，该假设对目标的运动信息进行编码，并且通常用于跟踪行人和共同对象。
函数表示
在这里插入图片描述
Wsot为网络权重
测试时，输出的所有Xtn要通过出生死亡过程检查是不是新目标。训练是我们比较e-bb和gt-bb计算作为可微分的函数。第一步是计算估计和地面实况边界框之间的成对距离。一般来说，我们可以使用任何（可微分）距离。用于测量两个边界框之间的相似性的常用度量是交叉结合（IoU，也称为Jaccard索引）。但是，如果两个边界框没有交点，则距离1-IoU将始终为常数值1。*损失的梯度为0，WSOT无法通过训练更新。*由于这个原因，我们通过使用欧几里德中心点距离和1-IoU的组合来计算矩阵Dt的第（n; m）个元素Dtnm，正式写成：
在这里插入图片描述
L2是欧式距离。IOU属于[0,1],Dtnm属于[0,1]。

4.1.2 Birth and Death Processes
如果检测和预测的box的iou和都小于阈值，考虑检测是brith候选。在连续L帧中，出生候选人中的边界框序列（和检测）具有IoU，彼此高于阈值，它被认为是新的轨迹。如果目标没有遮挡没有检测，则移除。如果目标再次出现，则分配到原先的ID。

4.2. DeepMOT training framework

首先，深匈牙利网络从距离矩阵Dt估计最佳软分配At。其次，MOT指标从At和Dt近似得到。

4.2.1 DHN: Deep Hungarian Network
DHN的目标是从Dt中得到最优关联矩阵At。我们记得原始匈牙利算法将Dt作为输入并提供最佳二进制分配矩阵At*。即最小化和距离成本。代表匈牙利算法对第n个目标和第m个gt分配的结果。如果第n个目标是第m个gt，则在这里插入图片描述为1，否则为0。实际上与原始的匈牙利算法，存在两个主要差异：（i）估计和地面实况边界框的数量可能不相同;（ii）超过一定距离阈值d，不应执行分配。
拟议的DHN的设计基于两个想法。首先，网络应该处理大小随时间变化的距离矩阵。其次，At的所有元素的感知领域应该是整个Dt，因为最优分配的决定是全局的。虽然完全卷积方法可以解释第一个问题，但是大输入矩阵意味着部分接受领域：决策将是局部的而不是全局的。另一种方法是使用双向递归神经网络（BiRNN）。
在这里插入图片描述
DHN的架构如图Figure2。Dt是2维的矩阵，2个不同输入和权重的BiRNNs，按顺序地应用以便从行中和列方向的Dt中的元素接收信息。首先，Dt按行顺序展平，输入到具有大小为h的隐藏单位的第一个BiRNN中，它输出一个包含NxM元素的序列。每一元素是2xh的向量。其次，将输出序列reshape为张量，称为大小为NxM的第一阶段隐藏表示，深度为2xh。之后，我们在输入第二个BiRNN之前执行逐列展平操作，第二个BiRNN产生第二阶段隐藏表示，其大小与第一阶段表示相同。此时，第二阶段隐藏表示被展平并赋予三个完全连接（FC）层。它们对于长度为2h的NxM向量中的每一个独立地操作（因此它们与Dt的大小无关）。我们在FC层之后将sigmoid函数应用于输出。最后，reshape后，我们获得了At。这个（现在是可微的）操作被形式化为函数DHN：
在这里插入图片描述其中WDHN是BiRNN和通道完全连接层的权重。重要的是，这种形式允许我们将分配矩阵At写为距离矩阵Dt的可微函数。大于阈值的输入距离值不应导致分配，因此在输入到DHN之前乘以大的缩放因子inf。经过训练，DHN用于训练MOT方法，但不再更新。
4.2.2 在这里插入图片描述
得到最优At之后，我们需要计算（可微大约）MOT指标MOTA和MOTP。如果轨迹与地面实况相匹配，则保留上一个跟踪行人的示例（匹配意味着在时间t，将地面实况标识分配给轨迹。匹配标准可根据应用而变化，通常，大于0.5的两个边界框的IoU被认为是匹配的，该轨道被认为是真正的（TPt）。否则，它是假阳性（FPt）并且错过的基础事实被认为是假阴性（FNt）。对于在时间t和最近的前一步骤标记为TP的轨迹，如果将其分配给不同的地面实况标识，则将其计为标识交换（IDSwt）。
在这里插入图片描述
MOTP计算所有TPt轨迹及其相关的地面实况边界框之间的边界框的距离平均值

我们现在要完成计算FNt，FPt和IDSwt作为At和Dt的可微函数的任务。这些操作在图3中示出（N = M = 3，作为简单示例）。
FNt和FPt使用类似的操作计算。估计Fnt，我们将一个填充了基值在这里插入图片描述的行附加到At，并逐列应用softmax，从而获得直观地，如果At的列所有元素m都小于.将接近1。类似地，对于FPt：附加填充的列并且应用行方式softmax（得到分错的概率），获得 Act 。然后，第Nt + 1行 Art 和Mt +第1列 Act 的总和分别提供了FNt和FPt的估计值。我们将此解释为期望值并写成：
在这里插入图片描述
为了计算IDSwt以及MOTPt，我们需要硬分配来构建二进制分配掩码 Abt ，这可以通过定位已知的FN和FP的TP来完成。 Abt 仅用作选择性掩模，没有梯度可以反向传播，但IDSwt和MOTPt如下所示。
为了计算身份转换，我们需要记录和更新历史跟踪真实身份关联，已知TPt，名为HIDt。我们首先在时间t为所有地面实况对象构造一个带有 HID（t?1）的二进制硬分配掩码 Abt?1 （时间t处的新对象可以像在Abt中一样填充）。然后我们用 Art 计算其互补的 1?Abt?1 的元素乘积，并总结（除了最后的Nt +1-th行），得到：

在这里插入图片描述
我们现在可以将MOTA的期望值定义为：

从 Abt ，我们计算MOTP的期望值：

由于要最大化MOTA并使MOTP最小化，所以在每个时间步t的建议的DeepMOT丢失写成：

通过最小化LDeepMOT，我们最大限度地减少了与MOT问题相关的所有：FP，FN，IDS和预测预测。实际上，我们明确告诉MOT方法，应该修改输出边界框以减少所有这些伪像。