Improving Multiple Object Tracking with Single Object Tracking

最新推荐文章于 2023-03-05 23:49:29 发布

三木ぃ

最新推荐文章于 2023-03-05 23:49:29 发布

阅读量1.3k

点赞数

分类专栏：多目标跟踪（MOT）文章标签： 1024程序员节目标跟踪 MOT 计算机视觉

本文链接：https://blog.csdn.net/qq_41214679/article/details/117957585

版权

多目标跟踪（MOT）专栏收录该内容

30 篇文章 50 订阅

订阅专栏

论文地址：Improving Multiple Object Tracking with Single Object Tracking

介绍和相关工作

在这里插入图片描述

传统的基于ReID特征的MOT方法，难以应对复杂的环境，并且作者认为轨迹之间的关联，不一定非要通过ReID特征，将不同帧的相同目标进行关联。

SOT和MOT相似的是都是时序任务，旨在视频序列中，在面对遮挡等问题的情况下，顺利评估目标对象的轨迹信息。也就是，MOT任务可以被多个SOT的组合实现。MOT的关键步骤被认为是目标关联，如果在MOT任务中，目标类已知，且检测器在目标搜索的区域中具有较高召回率，SOT就可以被认为是一个proposal的关联问题，因此SOT中的一些技术也可以被运用到MOT中来提高关联鲁棒性。

如果如图2(a)，直接将MOT中的每个目标对象的坐标看作是一个SOT任务，并且使用一个SOT模型来进行直接追踪，则会存在以下问题：

不恰当的辨别性：对于SOT而言，需要的是获得将目标从其背景出辨别出的能力，即泛化辨别性，而MOT任务由于背景信息可以被检测器所过滤，所以一般需要更多的是将目标和其周围目标进行区分，即具体辨别性。
尽管先进的SOT方法可以高速运行（40FPS），但是相同时间内使用SOT追踪MOT中的数十个目标还是很耗时的。

为了解决以上问题，作者提出了一个新颖的端到端的MOT训练结构，使得MOT任务可以受益于SOT的强大辨别能力，如图1。通过拓展CenterNet检测器，在其基础上增加一个SOT分支，和已存在结构并存。为了获得具体的辨别性，不同于传统SOT方法，增加的SOT分支对每个目标在线训练一个单独的SOT模型，来从当前帧中从周围目标中区分出该目标（图2b）。

训练完毕的SOT用于后续帧的目标关联，如此，MOT任务就拥有了强大的辨别能力和在线学习和追踪（关联）能力。如同检测分支相同，SOT分支将目标看为点，目标有特征向量表示，如此SOT可以效率的同时追踪数十个目标。

离线训练时，网络保存两帧图片作为输入，SOT分支中，SOT模型使用一张图片训练，另一张图片测试。在线追踪时，不同于CenterTrack利用ReID特征进行追踪，而是基于SOT模型进行追踪。

SOTMOT

SOTMOT,基于CenterNet检测器基础上构建。在原本CenterNet三个分支的基础上增加了一个SOT分支，构建了SOTMOT网络。SOT分支每一帧单独为每个目标训练一个单独的SOT模型用于另一帧的定位，和其他分支一样，SOT分支将目标看为点，结构如下图。
在这里插入图片描述

Backbone网络

采用FairMOT的变体DLA-34作为Backbone，拥有更多的跳跃连接以及可变卷积。输出尺寸为输入图像的1/4大小。

CenterNet这里就不介绍了，CenterNet检测网络主要有三个分支输出，用于定位的Heatmap，用于矫正的偏移Offset以及目标框大小Size。

SOT Branch

基于Center的特征提取
对于一个输入图片的Backbone特征图，将其传入到三个卷积网络层中获得SOT特征图 $F\in R^{C_{sot}\times H \times W}$ ，卷积核为3x3，stride为1x1，紧跟BN和Relu层。进一步，对于目标中心点 $c = \{x^c,y^c\}$ 对应于特征图，其可以通过特征向量表示为 $x = F (c)$ ，直接在特征图中提取，不需要其他操作，即 $\in R^{C_{sot}}$ 。如此提取数十个目标的特征不会浪费太多时间。

SOT模型训练
给定一张训练图片，和目标中心集合 $\{(x_i^c,y_i^c)\}^N_{i=1}$ ，所有目标的提取的特征向量为 $[x_1^T;...;X_N^T] \in R^{N \times C_{sot}}$ 。进一步，一个领接矩阵 $A\in \{0,1\}^{N\times N}$ ，表示是否中心集合 $N$ 中两个中心是否相邻： $\mathbf{A}_{i, j}=\left\{\begin{array}{lc} 1 & \text { if } \min \left(\left|x_{i}^{c}-x_{j}^{c}\right|,\left|y_{i}^{c}-y_{j}^{c}\right|\right) \leqslant r \\ 0 & \text { otherwise } \end{array}\right. \tag{1}$

$r$ 为距离阈值。

对于每个目标对象 $x_i$ ，其相邻采样矩阵 $X_i$ 和标签向量 $y_i$ 被构建， $X_i$ 由目标中心 $x_i^c,y_i^c)$ 的相邻节点的特征向量组成， ${x_j | ∀_j : A_{i,j} = 1\}$ 。 $y_i$ 标签除了 $x_i$ 处为1,外全为0。训练基于回归的判别模型 $w^*_i$ 来从其邻居目标中区分目标 $x_i$ ，具体点： $\min _{\mathbf{w}_{i}}\left\|\mathbf{X}_{i} \mathbf{w}_{i}-\mathbf{y}_{i}\right\|_{2}^{2}+\lambda\left\|\mathbf{w}_{i}\right\|_{2}^{2} \tag{2}$
$λ$ 是规则化参数，公式(2)的优化可以表示为： $\mathbf{w}_{i}^{*}=\left(\mathbf{X}_{i}^{\top} \mathbf{X}_{i}+\lambda \mathbf{I}\right)^{-1} \mathbf{X}_{i}^{\top} \mathbf{y}_{i} \tag{3}$

值得注意的是， $X_i$ 的行数依赖于中心点的邻居数， $\sum_jA_{i,j}$ ，不论 $\sum_jA_{i,j}$ 多大， $X_i^TX_i$ 和 $X_i^Ty_i$ 一直属于 $R^{C_{sot}\times C_{sot}}$ 和 $R^{C_{sot}\times 1}$ ，给定 $X_i^TX_i)s,(X_i^Ty_i)s$ ， $w^*s$ 就可以被同时注册。

离线训练

如图3，网络保存一对RGB图像，一个用于训练，一个用于测试，以双流共享参数的方式训练。对于训练图片， $\{w_i^*\}^N_{i=1}$ 可以通过公式（3）获得，对于测试图片，给定中心集合 $\{(x_j^c,y_j^c)\}^M_{j=1}$ ，test采样矩阵 $[z_1^T;...;z_M^T]\in R^{M\times C_{sot}}$ ，邻接采样矩阵 $Z_js$ 及其GT标签向量 $v_js$ 可以相似的获得。

总之，将 $\{w_i^*\}^N_{i=1}$ 和 $\{Z_j^*\}^M_{j=1}$ 重新排列为 ${w_i^*,...,w_k^*,...w_N^*\}$ 和 ${Z_1,...,Z_k,...,Z_M\}$ ，即 $w_i^*,Z_i)$ 的前 $k$ 对，产生 $w_i^*$ 的正例 $x_i$ 与其对应的 $z_i$ 是 $Z_i$ 中唯一的正样本，表示相同的目标对象。训练损失为： $\mathcal{L}_{\mathrm{sot}}=\sum_{i=1}^{k} \mathcal{L}_{\mathrm{reg}}\left(\mathbf{v}_{i}, \hat{\mathbf{v}}_{i}\right) \tag{4}$

$L_{reg} (·, ·)$ 为收缩损失，用于缓解采样不平衡，表示为：
$\mathcal{L}_{\mathrm{reg}}(\mathbf{v}, \hat{\mathbf{v}})=\left\|\frac{\exp (\mathbf{v}) \odot(\mathbf{v}-\hat{\mathbf{v}})}{1+\exp (a \cdot(c-|\mathbf{v}-\hat{\mathbf{v}}|))}\right\|_{2}^{2} \tag{5}$
$v_i$ 为 $Z_i$ 的标签向量， $\hat v_i = Z_iw_i^*$ 为其预测值。
由于回归模型是可微分的，并且(Eq.3)可以被整合进离线训练CNNs训练。SOT分支可以按照上述方法进行端到端训练，学习基于岭回归模型的单目标跟踪器的最优特征嵌入，该跟踪器通过将目标对象与周围的相似对象区分开来来跟踪目标对象。