ArTIST:Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking

最新推荐文章于 2024-05-07 11:47:55 发布

三木ぃ

最新推荐文章于 2024-05-07 11:47:55 发布

阅读量1.6k

点赞数 5

分类专栏：多目标跟踪（MOT）文章标签：算法计算机视觉 MOT 目标跟踪运动建模

本文链接：https://blog.csdn.net/qq_41214679/article/details/114832856

版权

多目标跟踪（MOT）专栏收录该内容

30 篇文章 50 订阅

订阅专栏

论文地址：链接

介绍

当前大多数的MOT都是DBT范式的，或者是JDE范式的，但是这些模型所作的工作就是检测框沿着视频帧进行的传播。并且由于现在的评价指标，例如MOTA，很大程度上和检测的质量有关，所以很多模型的策略就是寻找到更好的检测器。

但是这种帧之间的传播策略无法很好的解决遮挡问题，因为遮挡时长程的信息交互问题。虽然有的模型引入了运动模型，但是大多数的运动模型都是固定的或者说是一个单峰过程。有些模型则是使用运动估计来做一个过滤的工作。对于复杂的运动进行固定的追踪建模总是不合适的。

这里作者就提出了一个强调了开发一个随机运动模型的重要性，因为这可以更好的帮助模型进行长程信息的处理。为此作者引入了一个随机自动回归运动模型（a stochastic autoregressive motion model）来学习复杂的自然轨迹的多模态分布，允许对一系列边界框位置和相应的tracklets关联可能性进行评估。

总而言之，其贡献有三：

引入随机自动回归模型参照自然运动为tracklet打分。
由于学习到了多模态的人类自然运动的分布，它能够产生tracklet的多种合理假设并且填补包缺失检测的tracklet。
这种随机运动模型能够更好的长程的保留ID。

由于这种模型的特点，因此他在IDF1，IDs和MT方便提升指标明显。

方法

本方法是一个Online方法，接下来先定义概念以及ArTIST的总体概述，最后详细介绍各个成分。

概念

该方法沿用DBT的范式，考虑一个视频 $T$ 帧，每一帧提供一个由检测器获得的检测集合。这会返回一个整个视频的检测集合，定义为： $\mathcal{D}^{1: T}=\left\{D^{1}, D^{2}, \ldots, D^{T}\right\}$ ，其中 $D^{t}=\left\{d_{1}^{t}, d_{2}^{t}, \ldots\right\}$ 是在时刻 $t$ 的所有检测集合， $d_{i}^{t} \in \mathbb{R}^{4}$ （例如左上角坐标（ $x, y$ ），和宽高 $w, h$ ）。利用第一帧的检测 $\mathcal{D}^1$ 来初始化tracklets $\mathbb{T}$ 。第二帧开始连接检测到tracklets上。过程可能会创建新的tracklets，也有可能被终结，新创建的整合进 $\mathbb{T}$ 。

$\mathbb{T}=\left\{\mathcal{T}_{1}^{s_{1}: e_{1}}, \mathcal{T}_{2}^{s_{2}: e_{2}}, \ldots, \mathcal{T}_{m}^{s_{m}: e_{m}}\right\}$ ， $\mathcal{T}_{j}^{s_{j}: e_{j}}$ 表示第 $j$ 个ID轨迹从 $s_j$ 存活到 $e_j$ ，定义 $\mathcal{T}_{j}^{s_{j}: e_{j}}=\left\{d_{\Pi_{j}}^{s_{j}}, d_{\Pi_{j}}^{s_{j}+1}, \ldots, d_{\Pi_{j}}^{e_{j}}\right\}$ 。 $d_{\Pi_{j}}^{t}$ 为被分配到tracklet $\mathcal{T}_{j}^{s_{j}: e_{j}}$ 的 $t$ 帧的检测获得或者补充的bbox。

对于每个tracklet $\mathcal{T}_{j}^{s_{j}: e_{j}}$ ，定义一个可学习的内在表示 $I_{j}^{s_{j}}$ ，来捕获所有其他寿命与该tracklet在与时间范围 $s_j,e_j]$ 上重叠的tracklets的潜在表示。同时定义 $z_j^t$ 捕获 $\mathcal{T}_{j}^{s_{j}:t}$ 的隐藏表示。下面会详细介绍。

ArTIST概述

在这里插入图片描述
对于每个视频帧，ArTIST都要依赖两个步骤：1.在现有的tracklet中对检测进行评分；（如图1-middle所示）2. 将检测分配给tracklet（如图1-right所示），从而更新tracklet。

具体看，对于一张时刻t的输入帧，如图1中第 $t = 20$ 帧；一个前 $t - 1$ 帧的tracklets集合，例如 $\mathcal{T}_{1}^{1:10}$ ， $\mathcal{T}_{2}^{4:19}$ 和 $\mathcal{T}_{3}^{1:19}$ ；一个在 $t$ 帧的检测集，如 $d_1^{20}$ , $d_2^{20}$ 和 $d_3^{20}$ ，展示位实心灰度框。我们对上次在时间 $t - 1$ 分配检测的tracklet进行评分，如未遮挡tracklet，表示为 $g a p = 0$ （如图1-middle所示），将这些tracklet称为活动的，将其他tracklet称为暂时活动的。

对于每个活动的tracklet如 $\mathcal{T}_{2}^{4:19}$ ，给定关于这个tracklet和与之交互的其他tracklet的信息，即 $\mathcal T_2$ 和 $I_2$ ，ArTIST会计算下一个合理边界框（ $bbox^{20}_{\mathcal{T_2}}$ ）的概率分布，在这个概率分布下，评估所有的 $t$ 帧的检测结果 $d_{i}^{t} \in D^{t}$ 。

对于任意暂时存活的轨迹（如 $\mathcal{T}_{1}^{1:10}$ ），最后分配到检测的时间早于 $t - 1$ 帧，会存在一个非0的gap。这里会对该轨迹进行一个填充，来填上gap，延伸至 $t - 1$ 帧，以便认为是一个完全可见的tracklet。由于ArTIST评估的是一个多模态的自然运动的分布，所以会产生 $\mathcal S$ 个可能tracklet来填充这个gap，定义为 $\left\{\widehat{\mathcal{T}}_{1,1}^{11: 19}, \ldots, \widehat{\mathcal{T}}_{1, S}^{11: 19}\right\}$ （图1-middle）。然后会在 $\mathcal S$ 个候选中选择一个最好的填充tracklet来补全tracklet $\mathcal{T}_{1}^{1:19}$ （上图为第二个假设）。然后将他认为是0 gap的tracklet并且计算对于下一个可能边界框分配的概率分布。

最后，如图1-right所示，从每个检测在所有tracklets下的概率分布的可能性来构建一个代价矩阵，并使用Munkres算法来优化分配矩阵。然后使用所有的分配成功的检测来更新所有的tracklets，下一个时间点重复以上过程。

ArTIST结构

ArTIST旨在学习多模态的运动分布，然后对tracklet进行更好的选择。ArTIST从在每个时间步估计的多模态分布进行多项式抽样，来生成一个tracklet的多个假设的成分。

一个tracklet $\mathcal{T}_{j}^{s_j:t}$ (t为当前时间帧)在自动回归模型中的概率定义为：
$p\left(\mathcal{T}_{j}^{s_{j}: t} \mid I_{j}^{s_{j}: t}\right)=p\left(d_{\Pi_{j}}^{s_{j}} \mid I_{j}^{s_{j}}\right) \prod_{k=s_{j}+1}^{t} p\left(d_{\Pi_{j}}^{k} \mid d_{\Pi_{j}}^{<k}, I_{j}^{<k}\right) \tag{1}$

$d_{\Pi_{j}}^{s_{j}}$ 为在 $t$ 帧分配给轨迹 $\mathcal{T}_{j}$ 的检测， $I_{j}^{s_{j}}$ 定义为从 $t$ 帧与 $\mathcal{T}_{j}$ 共生的其他tracklets计算得来的相互作用的表示。

每个检测被表示为连续的边界框坐标，因此可以尝试使用过去帧的位置信息来回归初下一帧的位置。但是这么做的回归操作不会返回自然轨迹上的分布，且返回的轨迹位置信息是一个决定性的单一的固定值，无法很好的反应运动的随机性。

因此，作者受到PixelRNN启发，提出离散化边界框的位置空间，从而将 $p(\mathcal{T}_{j}^{s_{j}: e_j})$ 建模为一个离散分布，等式1中的每个条件分布建模为带softmax层的多项式（分类）分布。不同于PixelRNN式的通过数据独立量化来离散空间从而生成模型，该方法会通过相邻帧之间的运动速度（ $δ x, δ y, δ w, δ h$ ）的聚类来定义一个数据独立的离散值的集合，并且会和图片宽高进行归一化处理，这使得输出空间具有平移和缩放的不变性。实际操作中会使用无参的k均值聚类来获得 $K$ 个聚类，每个聚类中心认为是一个离散的运动类。

ArTIST的结构如下图，上部分说明了ArTIST训练时的总览。总体来说就是训练期间会将所有的存活的tracklets $\mathbb{T}$ 作为输入，和一个相互作用学习的表示（红色区域）一起联合学习每个tracklet的分布。为了预测下一帧的边界框位置的概率分布，使用负对数似然损失函数训练模型，同时使用一个移动代理自动编码网络（MA-Net），它被训练来重建所有相互作用的tracklet，整个训练过程就是最小化损失： $\mathcal{L}_{\text {total }}=\lambda \mathcal{L}_{\mathrm{NLL}}+\mathcal{L}_{r e c}\tag{2}$

$\mathcal{L}_{r e c}$ 是均方差损失， $\lambda$ 是退火函数，一开始设置为0，更好的学习交互表示，逐渐提高到1，让两个模型等价训练。

下图下部分显示，ArTIST依赖于一个循环残差结构来表示运动速度。每个时间戳 $t$ ，将一个运动速度表示 $\Delta_{\mathcal{T}_{j}}^{t}=\left(\delta x_{\mathcal{T}_{j}}^{t}, \delta y_{\mathcal{T}_{j}}^{t}, \delta w_{\mathcal{T}_{j}}^{t}, \delta h_{\mathcal{T}_{j}}^{t}\right)$ 和一个交互表示 $I_j^t$ 作为输入。给定这些输入和上一帧计算的隐藏状态 $z_j^{t-1}$ ，来预测一个在 $t + 1$ 帧上的运动速度的概率分布，如 $p\left(\Delta_{\mathcal{T}_{j}}^{t+1} \mid z_{j}^{t-1}, \Delta_{\mathcal{T}_{j}}^{t}, I_{j}^{t}\right)$ ， $z_j^{t-1}$ 携带所有过去帧的信息，近似于公式1的定义。

在这里插入图片描述

移动代理交互Moving Agent Interactions

一个有效的交互模型是可以提高网络追踪质量的，因为他人的行为也会影响目标的运动。这里作者使用运动代理网络（MA-Net）来进行操作。

MA-Net是一个用于学习重构可能和其他感兴趣tracklet发生交互的所有运动因子的tracklet的循环自动编码神经网络和一个重构所有给定压缩潜在表示的tracklet的解码器组成。

为了学习 $\mathcal T_j$ 的分布，ArTIST需要一个不依赖数量和顺序的交互因子的表示。这里通过对所有交互因子的潜在表达的一个最大值聚合（max-aggregation）获得。取MA-Net编码器中最后一个循环块的隐藏状态作为 $N_{I_j}$ 个相互作用的代理，获得矩阵 $\mathbb{R}^{\mathrm{N}_{I_{j}} \times L}$ ，其中 $L$ 为隐藏状态维度。然后通过对第一个维度进行最大值池化获得 $I_{j} \in \mathbb{R}^{L}$ 。

在测试和追踪过程中会去除MA-Net的解码器，只是用编码器计算出来的表示。（需要 $I_j$ ）

追踪得分

获得了训练好的ArTIST模型后，可以计算在时间 $t$ 的检测是tracklet $T_j$ 的延续的可能性。对于给定的 $T_j$ 的速度序列和 $I_j$ ，模型评估出在时间 $t$ 处的边界框位置的可能性分布。结合估计分布，将检测的可能性作为tracklet-detection对的得分。

具体就是计算∆，如由和之前检测（或者过去的填充边界框）有关的目前任何检测造成的 $x, y, w, h$ 的变化的潜在速度。然后将最接近此∆的聚类中心估计的概率作为可能性。

实践中，假设边界框参数（ $\delta x_{\mathcal{T}_{j}}^{t}, \delta y_{\mathcal{T}_{j}}^{t}, \delta w_{\mathcal{T}_{j}}^{t},$ 和 $\delta h_{\mathcal{T}_{j}}^{t}$ ）的独立性。因此在每个帧会有四个聚类集合和四种可能性分布（上图下部分）。

通过对所有组成概率的乘积来计算这个边界框可能性：
$p\left(\Delta_{\mathcal{T}_{j}}^{t+1} \mid z_{j}^{t-1}, \Delta_{\mathcal{T}_{j}}^{t}, I_{j}^{t}\right)=\prod_{\xi \in\{x, y, w, h\}} p\left(\delta \xi_{\mathcal{T}_{j}}^{t+1} \mid z_{j}^{t-1}, \Delta_{\mathcal{T}_{j}}^{t}, I_{j}^{t}\right)\tag{3}$
实验中，在对数空间进行操作，最后只要求和就好了。

轨迹填充 Tracklet Inpainting

考虑一个在过去几帧未匹配的检测，在当前帧寻找是否有合适的检测可以进行分配。为了计算新检测分配给他的可能性，我们需要过去帧的完整边界框序列，但由于之前未匹配成功，所以不存在这个完整的边界框。

为此，这里使用模型来为这个tracklet填充检测，如图1-middle中所示，通过对学习到的tracklet分布进行多模态采样。采样可以自动地进行，以创建一组不同的完整的观测序列和填充框，这反过来又允许我们对新的检测进行打分。

为了体现随机性，从概率分布中为整个序列采样 $S$ 个候选来进行填充，从而获得多个假设tracklets。

为了选择最有效的候选，使用一个tracklet rejection scheme（TRS）来进行去除候选：
如果一个候选被选中，计算这最后生成的检测框和所有当前场景的检测框之间的IoU，模型去选择最高IoU且超过阈值的候选。某些情况下，某个候选最后生成的边界框可能会和一个假检测重叠或者和另一个目标的检测进行重叠，为此这里会为所有候选持续预测1-2帧的边界框，且计算IoU。ArTIST选择IoU总和最大的候选。

但这种方法也不能保证所有的误检，例如一个属于其他tracklet的检测和这个候选的检测接近且运动方向一致。

分配

这里使用线性分配的Munkres算法，该算法依赖存储所有检测分配给tracklets的代价的代价矩阵 $\mathcal C$ ，该代价由ArTIST通过负对数可能性计算得到的。

定义 $C_{i j}^{t}=-\log p\left(\left\langle d_{i}^{t}, \mathcal{T}_{j}^{t}\right\rangle\right)$ ，表示在 $t$ 时刻（帧）分配检测 $i$ 给tracklet $j$ 的负对数可能性。

Munkres算法通过解决 $A^* = \arg \min _{A^{t}} \sum_{i, j} C_{i j}^{t} A_{i j}^{t}$ ,返回关联的tracklet-detection对的索引, $A^{t} \in[0,1]^{N \times M}$ 是分配概率矩阵， $N$ 个检测， $M$ 个tracklets。这个矩阵满足 $\forall i，\sum_{j} A_{i j}^{t}=1$ ； $\forall j，\sum_{i} A_{i j}^{t}=1$ 。