一个可微的轨迹训练方法：How To Train Your Deep Multi-Object Tracker

最新推荐文章于 2023-04-06 10:41:00 发布

三木ぃ

最新推荐文章于 2023-04-06 10:41:00 发布

阅读量1.3k

点赞数 2

分类专栏：多目标跟踪（MOT）文章标签：算法深度学习目标跟踪 MOT 神经网络

本文链接：https://blog.csdn.net/qq_41214679/article/details/114634103

版权

多目标跟踪（MOT）专栏收录该内容

30 篇文章 50 订阅

订阅专栏

论文地址：链接
代码地址：链接

How To Train Your Deep Multi-Object Tracker

一、介绍
二、 DeepMOT
三、实验

主要贡献：

提出了新颖的损失函数直接激发MOT评价指标，进行端到端训练MOT追踪器。
为了使得反向传播损失通过网络，提出了新的模型DHN来以可微的方式来进行匹配预测轨迹和GT目标。
通过实现证明了提出的损失函数和可微匹配的有效性，MOTChallenge上达到了SOTA。

一、介绍

在大多数独立训练的方法中，通常会使用多个损失分别优化不同的任务。然而有一个匹配任务，通常难以定义损失，因为他需要计算预测的目标轨迹和GT目标之间的优化匹配，大多数方法使用匈牙利算法（HA）来代替，然而HA又是不可微分的操作。

作者提出了一个新颖的训练MOT追踪器的框架DeepMOT以及包括直接关联已建立的评估标准的损失函数。主要成分DHN提供了一个优化预测和GT分配的软近似，允许梯度的反传，从而更新追踪器。

提出的近似是基于一个双向递归神经网络，基于预测和GT目标之间的距离矩阵计算分配矩阵。然后将MOTA和MOTP表示为计算得到的(软)分配矩阵和距离矩阵的可微函数。

通过DHN，将近似追踪指标的梯度传播回去来更新追踪器。如此，可以使用直接关联指标的损失来训练追踪器。
在这里插入图片描述
目前也有在追踪阶段使用损失的，但不是直接关联追踪指标的，基本都是局部训练的，也不知如何训练来达到最大评估指。例如有些就是学习一个表达目标的embedding，用于数据关联，常用到对比、三元组等损失函数。推理的时候就直接使用这些embedding来计算相似度。现在的网络，匹配大部分还是使用的匈牙利算法，有些方法提出了匹配的损失，但仅仅是学习最后的数据关联函数，本方法可以运用到任何可学习的追踪方法。

二、 DeepMOT

由于只要得到了预测轨迹和真实轨迹，就可以相应的计算出TP,FN,IDS。本方法沿着二阶段的策略，受MOTA和MOTP计算的启发，提出了一个可微的损失。一旦匹配建立，设计一个损失，近似评估标准，作为软分配矩阵和距离矩阵的可微函数的组合。

深度匈牙利算法：DHN

DHN产生了一个关于距离矩阵 $\bm D$ 的可微代理 $\widetilde \bm A$ ，因此会在损失和追踪器之间产生一个桥梁来传送梯度。使用一个非线性的映射来表示DHN，输入为 $\bm D$ ,输出为代理软分配矩阵 $\widetilde \bm A$ 。

建模为： $\tilde{\mathbf{A}}=g\left(\mathbf{D}, \omega_{d}\right)$ ，参数为 $\omega_{d}$ 。其映射必须满足以下几个规则：

输出的 $\widetilde \bm A$ 必须很好近似分配矩阵 $\bm A^*$
这个近似必须关于 $\bm D$ 可微
输入和输出矩阵等价，但大小不同
$g$ 必须像HA一样做出全局决策

DHN结构如下：

在这里插入图片描述
行级和列级展平是受匈牙利算法按行和列顺序执行缩减和验证启发，Bi-RNN允许全局进行处理，对所有输入进行解释。如果使用全卷积来替代Bi-RNN，虽然可以处理不同尺寸的输入输出，但是局部的感受野会导致局部分配的决定问题。

这里首先进行行级展开，然后送入Bi-RNN输出第一步的隐藏表达，大小为 $N\times M\times 2h$ ， $h$ 表示Bi-RNN的隐藏层尺寸，第一阶段的隐藏表示对行式的中间分配进行编码。然后将该表示列级展开，送入第二个Bi-RNN，获得第二个隐藏表示，大小为 $N\times M\times 2h$ 。两个Bi-RNN隐藏层相同，不共享权重。第二个隐藏表示就是最后分配的编码，将他送入三个全连接层进行解码获得软分配矩阵 $\widetilde \bm A$ ，大小 $N\times M$ 。

对比HA的二值输出，DHN输出一个软分配矩阵 $\widetilde \bm A \in [0,1]^{N\times M}$ 。

距离矩阵 $\bm D$ 的计算

大多数常见计算为两个Bbox 的IoU，原则上式可以被微分的，但是当两个Bbox没有交集的时候，距离1-IoU将会为常量1，如此梯度则为0，则传播了个寂寞。

所以这里作者选择了使用中心点的欧氏距离和Jaccard距离 $\mathcal J$ (定义为1-IoU)的均值来作为距离：
$d_{n m}=\frac{f\left(\mathbf{x}^{n}, \mathbf{y}^{m}\right)+\mathcal{J}\left(\mathbf{x}^{n}, \mathbf{y}^{m}\right)}{2} \tag{1}$

$f$ 是关于图片大小的欧氏距离：
$f\left(\mathbf{x}^{n}, \mathbf{y}^{m}\right)=\frac{\left\|c\left(\mathbf{x}^{n}\right)-c\left(\mathbf{y}^{m}\right)\right\|_{2}}{\sqrt{H^{2}+W^{2}}} \tag{2}$

$c (\cdot)$ 计算边界框中心点， $H, W$ 为视频帧的宽高。

由于距离经过标准化处理都在0-1范围内，所有的 $d_{nm}\in [0,1]$ ，这样任何的距离都是可微的。

MOTA和MOTP微分操作

这里详细介绍MOTA的微分dMOTA和MOTP的微分dMOTP的计算过程。 $\text { MOTA }=1-\frac{\sum_{t}\left(\mathrm{FP}_{t}+\mathrm{FN}_{t}+\mathrm{IDS}_{t}\right)}{\sum_{t} M_{t}}$ $\mathrm{MOTP}=\frac{\sum_{t} \sum_{n, m} d_{t n m} a_{t n m}^{*}}{\sum_{t}\left|\mathrm{TP}_{t}\right|}$
基于分配矩阵 $\bm A^*$ ，可以计算出FN,FP,IDS。为了计算dMOTA和dMOTP，需要将这些参数使用DHN表示为 $\bm D$ 和 $\widetilde \bm A$ d的微分函数。
操作如下：
在这里插入图片描述
首先需要计算DN和FP，然后需要获得未匹配轨迹和未匹配的GT目标的计数。为此，首先构建一个通过为 $\widetilde \bm A$ 增加一列,使用一个阈值δ（例如δ=0.5）填满，获得矩阵 $C^r$ ，执行行级softmax（图3a）。同样通过对 $\widetilde \bm A$ 增加一个行，执行列级softmax（图3b）。然后就可以表达一个FP和FN的软近似数目：
$\tilde{\mathrm{FP}}=\sum_{n} \mathbf{C}_{n, M+1}^{r}, \quad \tilde{\mathrm{FN}}=\sum_{m} \mathbf{C}_{N+1, m}^{c} \tag{3}$

直观看，如果 $\widetilde \bm A$ 中所有元素都小于阈值，则最后 $\mathbf{C}_{n, M+1}^{r},\mathbf{C}_{N+1, m}^{c}$ 就会接近1。标志着存在一个FP或者FN。否则 $C^r,C^c$ 中的每行没列的最大元素就会趋近于1，意味着获得了匹配。最终求和获得一个近似于FP和FN的估计 $\tilde{\mathrm{FP}},\tilde{\mathrm{FN}}$ 。

为了计算 $\tilde{\mathrm{IDS}}$ 和dMOTP，需要额外建立两个二分矩阵 $\bm B^{TP},\bm B^{TP}_{-1}$ ，非零条目分别表示在当前帧和前一帧为真正TP。这些矩阵的行索引对应于分配给我们的轨迹的索引，而列索引对应于GT对象。还需要对 $\bm B^{TP}_{-1}$ 进行元素级乘法，因为帧之间的目标和轨迹数目不同。通过填充 $\bm B^{TP}_{-1}$ 的行和列，来发现当前帧新的目标。注意不需要修改 $\bm B^{TP}_{}$ 来弥补新出现的目标，因为这不会造成IDS。如此 $\mathbf{C}_{1: N, 1: M}^{c} \odot \overline{\mathbf{B}}_{-1}^{\mathrm{TP}}$ ( $\overline{\mathbf{B}}$ 是 $\mathbf{B}$ 的二进制补码)求和后就是IDS的数目： $\mathrm{ID} \mathrm{S}=\left\|\mathbf{C}_{1: N, 1: M}^{c} \odot \overline{\mathbf{B}}_{-1}^{\mathrm{TP}}\right\|_{1}\tag{4}$
$\|· \|$ 是一个展平矩阵的L1范数，有了这些梯度，就可以计算dMOTA：
$A=1-\frac{\tilde{\mathrm{FP}}+\tilde{\mathrm{FN}}+\gamma \tilde \mathrm{IDS}}{M}\tag{5}$

$γ$ 是对 $\tilde \mathrm{IDS}$ 的惩罚，相似的定义dMOTP：
$P=1-\frac{\left\|\mathbf{D} \odot \mathbf{B}^{\mathrm{TP}}\right\|_{1}}{\left\|\mathbf{B}^{\mathrm{TP}}\right\|_{0}} \tag{6}$

用L1范式表示距离，0范式 $\|·\|$ 表示匹配的数量。

提出了相应的损失来最大化MOTA和MOTP： $\mathcal{L}_{\text {DeepMOT }}=(1-d M O T A)+\lambda(1-d M O T P)\tag{7}$ $λ$ 是平衡因子。通过最小化损失，来惩罚FP、FN和IDS，dMOTA和dMOTP必须逐帧计算。

如何训练深度多目标追踪器

总体过程如下，随机采样一对连续帧，两个图片和他们的GT框一起构成一个训练实例。

对于每个实例，首先由t帧的GT框初始化轨迹，运行前向传递以获得t+1帧视频中轨道的边界框预测，为了模拟不完美检测的效果，在GT边界框中添加随机扰动。之后可以计算D以及使用DHN计算 $\widetilde \bm A$ ，基于这两个来计算代理损失，从而提供梯度来解释分配，从而更新检测器。

在这里插入图片描述

三、实验

DHA训练细节
为了训练DHA，构建了一个成对矩阵（ $D$ 和 $A^*$ ），分离为训练集和测试集。 $D$ 使用GT框和MOTChallenge提供的Public检测计算距离矩阵 $D$ ，使用HA产生相应的分配矩阵 $A^*$ 。使用 $w_0,w_1$ 来平衡 $A^*$ 中的类不平衡， $w_{0}=n_{1} /\left(n_{0}+n_{1}\right)$ ， $w_{1}=1-w_{0}$ 。使用WA来评价DHA的表现： $\mathrm{WA}=\frac{w_{1} n_{1}^{*}+w_{0} n_{0}^{*}}{w_{1} n_{1}+w_{0} n_{0}}\tag{8}$
$n_1^*,n_0^*$ 分别为TP和FP个数。