DeepMOT: A Differentiable Framework for Training Multiple Object Trackers

摘要:
MOTA,MOTP是多目标跟踪的的评价标准。它们专门用于编码MOT挑战和困难。基于MOTA和MOTP直接优化跟踪器是困难的,因为这两个指标都非常依赖匈牙利算法,这是不可微分的。我们提出MOTA、MOTP的可微分代理,这使得可以通过MOT的测量标准来训练直接优化深度MOT。所提出的近似是基于双向递归网络,其输入对象到假设距离矩阵并输出最优假设 - 对象关联,从而模拟匈牙利算法。在可微分模块之后,估计的关联用于计算MOTA和MOTP。 实验研究证明了这种可区分框架对两个最近的深度跟踪器相对于MOT17数据集的好处。
代码:https://gitlab.inria.fr/yixu/deepmot.

1.Introduction

视觉跟踪的大多数研究涉及单目标跟踪(SOT),其中主要困难是(i)目标动态的正确建模和(ii)鲁棒外观模型的学习。除了单对象跟踪的挑战之外,多目标跟踪的复杂性还以数据到轨道分配问题为特征。
传统的对关联问题的方法是匈牙利和Munkres算法。但是它们都不能表示为输入距离矩阵的可微函数。
我们使用递归神经网络,我们称之为深度匈牙利网络(DHN)。经过训练,DHN可以以两种不同的方式使用。 首先,提供最佳的轨道 - 地面真值分配的近似值,这是可微分的。 距离矩阵(从而近似于MOTA和MOTP直接训练深度MOT)。其次,将任何可完全训练的深单对象跟踪器转换为深度多对象跟踪器。 实际上,轨道可以从纯粹的MOT方法,从并行运行的几种SOT方法,或从并行工作的MOT和SOT方法的任何组合推断出来。

3. Problem Formulation

MOT在每个时间对所有目标预测轨迹包括bunding box、分配ID。
随着深度学习的出现,人们用深度神经网络处理MOT,主要通过构建捕获关于运动,外观和/或对象交互的信息的鲁棒模型。然而e2e的训练框架没有出现。我们提出了一个深匈牙利网络,或DHN,可以看作是一个近似于匈牙利算法的可微函数。 通过这种方式,完整的管道是可微分的,并且(近似的)MOT损失的梯度可以反向传播到任何可训练的MOT方法。

4. Methodology

在这里插入图片描述
图1显示了所提方法的概述。以视频序列中的行人跟踪为例,在t时刻,几个单目标跟踪器用于跟踪多目标。提供Nt个估计bounding box(e-bb),在这里插入图片描述 然后将这些估计值与Mt地面真值边界框(gt-bb)进行比较。在这里插入图片描述这些成对的距离储存在距离矩阵之中在这里插入图片描述。然后使用所提出的深匈牙利网络来估计最佳软分配矩阵在这里插入图片描述最后,MOTA和MOTP,在这里插入图片描述的预期值由At和Dt计算。如果用于计算这些预期值的所有septs都是可微分的,那么我们将能够通过直接优化在这里插入图片描述来训练跟踪网络。

4.1. MOT Pipeline

4.1.1 MOT by SOT

在t时刻,对n个人,参考图像在这里插入图片描述跟踪,编码要跟踪的目标的外观信息和搜索图像在这里插入图片描述这些跟踪器关键点是从Rtn提取视觉特诊,将它们作为卷积核对Stn的视觉特征进行卷积。然后输出ebb。搜索区域从之前的box获取,假设目标没有移动很多,该假设对目标的运动信息进行编码,并且通常用于跟踪行人和共同对象。
函数表示
在这里插入图片描述
Wsot为网络权重
测试时,输出的所有Xtn要通过出生死亡过程检查是不是新目标。训练是我们比较e-bb和gt-bb计算在这里插入图片描述作为在这里插入图片描述可微分的函数。第一步是计算估计和地面实况边界框之间的成对距离。一般来说,我们可以使用任何(可微分)距离。 用于测量两个边界框之间的相似性的常用度量是交叉结合(IoU,也称为Jaccard索引)。但是,如果两个边界框没有交点,则距离1-IoU将始终为常数值1。*损失的梯度为0,WSOT无法通过训练更新。*由于这个原因,我们通过使用欧几里德中心点距离和1-IoU的组合来计算矩阵Dt的第(n; m)个元素Dtnm,正式写成:
在这里插入图片描述
L2是欧式距离。IOU属于[0,1],Dtnm属于[0,1]。

4.1.2 Birth and Death Processes
如果检测和预测的box的iou和都小于阈值,考虑检测是brith候选。在连续L帧中,出生候选人中的边界框序列(和检测)具有IoU,彼此高于阈值,它被认为是新的轨迹。如果目标没有遮挡没有检测,则移除。如果目标再次出现,则分配到原先的ID。

4.2. DeepMOT training framework

首先,深匈牙利网络从距离矩阵Dt估计最佳软分配At。 其次,MOT指标从At和Dt近似得到。

4.2.1 DHN: Deep Hungarian Network
DHN的目标是从Dt中得到最优关联矩阵At。我们记得原始匈牙利算法将Dt作为输入并提供最佳二进制分配矩阵At*。即最小化和距离成本。代表匈牙利算法对第n个目标和第m个gt分配的结果。如果第n个目标是第m个gt,则在这里插入图片描述为1,否则为0。实际上与原始的匈牙利算法,存在两个主要差异:(i)估计和地面实况边界框的数量可能不相同;(ii)超过一定距离阈值d,不应执行分配。
拟议的DHN的设计基于两个想法。 首先,网络应该处理大小随时间变化的距离矩阵。 其次,At的所有元素的感知领域应该是整个Dt,因为最优分配的决定是全局的。虽然完全卷积方法可以解释第一个问题,但是大输入矩阵意味着部分接受领域:决策将是局部的而不是全局的。 另一种方法是使用双向递归神经网络(BiRNN)。
在这里插入图片描述
DHN的架构如图Figure2。Dt是2维的矩阵,2个不同输入和权重的BiRNNs,按顺序地应用以便从行中和列方向的Dt中的元素接收信息。首先,Dt按行顺序展平,输入到具有大小为h的隐藏单位的第一个BiRNN中,它输出一个包含NxM元素的序列。每一元素是2xh的向量。其次,将输出序列reshape为张量,称为大小为NxM的第一阶段隐藏表示,深度为2xh。之后,我们在输入第二个BiRNN之前执行逐列展平操作,第二个BiRNN产生第二阶段隐藏表示,其大小与第一阶段表示相同。此时,第二阶段隐藏表示被展平并赋予三个完全连接(FC)层。它们对于长度为2h的NxM向量中的每一个独立地操作(因此它们与Dt的大小无关)。 我们在FC层之后将sigmoid函数应用于输出。 最后,reshape后,我们获得了At。这个(现在是可微的)操作被形式化为函数DHN:
在这里插入图片描述其中WDHN是BiRNN和通道完全连接层的权重。重要的是,这种形式允许我们将分配矩阵At写为距离矩阵Dt的可微函数。大于阈值d的输入距离值不应导致分配,因此在输入到DHN之前乘以大的缩放因子inf。经过训练,DHN用于训练MOT方法,但不再更新。
4.2.2在这里插入图片描述
得到最优At之后,我们需要计算(可微大约)MOT指标MOTA和MOTP。如果轨迹与地面实况相匹配,则保留上一个跟踪行人的示例(匹配意味着在时间t,将地面实况标识分配给轨迹。匹配标准可根据应用而变化,通常, 大于0.5的两个边界框的IoU被认为是匹配的,该轨道被认为是真正的(TPt)。 否则,它是假阳性(FPt)并且错过的基础事实被认为是假阴性(FNt)。对于在时间t和最近的前一步骤标记为TP的轨迹,如果将其分配给不同的地面实况标识,则将其计为标识交换(IDSwt)。
在这里插入图片描述
MOTP计算所有TPt轨迹及其相关的地面实况边界框之间的边界框的距离平均值
在这里插入图片描述
我们现在要完成计算FNt,FPt和IDSwt作为At和Dt的可微函数的任务。这些操作在图3中示出(N = M = 3,作为简单示例)。在这里插入图片描述
FNt和FPt使用类似的操作计算。估计Fnt,我们将一个填充了基值在这里插入图片描述的行附加到At,并逐列应用softmax,从而获得在这里插入图片描述直观地,如果At的列所有元素m都小于在这里插入图片描述.在这里插入图片描述将接近1。类似地,对于FPt:附加填充在这里插入图片描述的列并且应用行方式softmax(得到分错的概率),获得Act。然后,第Nt + 1行Art和Mt +第1列Act的总和分别提供了FNt和FPt的估计值。我们将此解释为期望值并写成:
在这里插入图片描述
为了计算IDSwt以及MOTPt,我们需要硬分配来构建二进制分配掩码Abt,这可以通过定位已知的FN和FP的TP来完成。Abt仅用作选择性掩模,没有梯度可以反向传播,但IDSwt和MOTPt如下所示。
为了计算身份转换,我们需要记录和更新历史跟踪真实身份关联,已知TPt,名为HIDt。我们首先在时间t为所有地面实况对象构造一个带有HID(t?1)的二进制硬分配掩码Abt?1(时间t处的新对象可以像在Abt中一样填充)。然后我们用Art计算其互补的1?Abt?1的元素乘积,并总结(除了最后的Nt +1-th行),得到:

在这里插入图片描述
我们现在可以将MOTA的期望值定义为:
在这里插入图片描述
Abt,我们计算MOTP的期望值:
在这里插入图片描述
由于要最大化MOTA并使MOTP最小化,所以在每个时间步t的建议的DeepMOT丢失写成:
在这里插入图片描述
通过最小化LDeepMOT,我们最大限度地减少了与MOT问题相关的所有:FP,FN,IDS和预测预测。 实际上,我们明确告诉MOT方法,应该修改输出边界框以减少所有这些伪像。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值