Multi-object Tracking via End-to-end Tracklet Searching and Ranking：多目标跟踪的评分网络

最新推荐文章于 2022-05-03 12:02:51 发布

Change_ZH

最新推荐文章于 2022-05-03 12:02:51 发布

阅读量541

点赞数

分类专栏：深度学习文章标签：人工智能神经网络深度学习

本文链接：https://blog.csdn.net/qq_36449741/article/details/104815321

版权

深度学习专栏收录该内容

60 篇文章 53 订阅

订阅专栏

📝论文下载地址

[论文地址]

🔨代码下载地址

[GitHub]

👨‍🎓论文作者

Tao HuLichao HuangHan ShenHorizon Robotics Inc

📦模型讲解

[背景介绍]

视频跟踪可以划分为单目标跟踪和多目标跟踪两个部分。单目标跟踪中比较有名的方法就是孪生网络，孪生网络的关键是在搜索图像中能不能匹配到单个目标的位置。多目标跟踪网络比较有名的是使用目标检测模型为backbone，使用关联匹配的模型，对连续帧进行目标的匹配，多目标跟踪网络的关键是对两帧之间对应目标的关联。

[论文解读]

在通过检测进行跟踪的过程中，MOT由两个阶段组成：在每个帧进行目标检测；并在跨帧的每个检测结果分配ID也就是进行关联。分配ID的常见做法通常是根据tracklet和检测结果之间的关联。在本节中，作者首先通过目标检测的跟踪方法对提出的框架进行总体架构描述，然后再扩展各小节中的细节。

作者提出了一个新的框架，可以通过tracklet在线搜索使用margin损失直接优化tracklet得分。该框架由迭代搜索、学习、排名和修剪过程组成，如下图所示。获得模型后，采用在线匈牙利算法和近似在线算法-多重假设跟踪进行推断，以全面了解其有效性。最后，逐帧运行此分配过程，并随时间产生一组目标轨迹。

[评分网络]

$T_i$ 表示目标 $i$ 在视频中的轨迹，它由目标检测补丁 $D_i$ 组成：
$T_i = \{b^t_i\}^{t0+Di}_{t=t0}$
意思应该是 $t 0$ 时刻和之后时刻目标检测的结果中 $i$ 的boundingbox的结果 $D_i$ 组合成目标 $i$ 的轨迹。
给定在时间 $t$ 已经获得目标 $i$ 的轨迹为 $T^t_i$ ，之后的检测结果 $\{b^{t+1}_1,b^{t+1}_2,...,b^{t+1}_i,...,b^{t+1}_j\}$ 表示在 $t + 1$ 帧检测到 $j$ 个目标，这些目标中会包含在 $t + 1$ 帧的目标 $i$ 。
作者提出了一个基于tracklet搜索的对延长tracklet进行一致性评分的方法。也就是说在之前 $t$ 帧目标 $i$ 的tracklet $T^t_i$ 的基础上会加上 $t + 1$ 帧的结果，组成一个新的tracklet $(T^t_i,b^{t+1}_j)$ ，这个公式好像有点问题，而且在后面很多公式上标下标随意变换。我认为应该是 $\tilde T^{t+1}_i=(T^t_i,b^{t+1}_n)$ $n\in\{1,2,...,i,...,j\}$
其中 $\tilde T^{t+1}_i$ 代表在 $t + 1$ 帧目标 $i$ 的假设轨迹，在 $t + 1$ 帧中检测结果 $n$ 就是目标 $i$ 的情况下。
作者的目标是找到一个评分函数，以促进训练和推理阶段之间的一致性。假设给出了用深层网络实现的评分函数为 $f_s(T)$ ，通过对所有的 $\tilde T^{t+1}_i$ 进行评分，选取最高的作为结果，也就是：
$\hat T^{t+1}_i=argmax_{\tilde T^{t+1}_i}\{f_s(\tilde T^{t+1}_i) \}$ 其中 $\hat T^{t+1}_i$ 代表在 $t + 1$ 帧目标 $i$ 的最终预测轨迹。

[评分网络损失函数]

对于多目标跟踪过程中的一个目标来说，例如这个目标是 $i$ ，在 $t$ 帧的轨迹Groundtruth是 $T^t_i$ ： $T^t_i=(T^{t-1}_i,b^t_i)$ 也就是代表在 $t$ 帧的视频跟踪目标有 $i$ 个。
多目标跟踪网络在第 $t$ 帧有 $j$ 个目标检测结果，而要跟踪的某一个目标 $i$ 包含在目标检测的结果中，那么可以通过下式得到 $t$ 帧目标 $i$ 的预测轨迹 $\hat T^t_{i+n}$ 组成候选轨迹 $\hat\mathcal T^{t}_i$ ：
$\hat\mathcal T^{t}_i=\{\hat T^t_{i+1},\hat T^t_{i+2},...,\hat T^t_{i+j}\}$ $\hat T^t_{i+n}=(\hat T^{t-1}_i,b^t_n)$ $n\in\{1,2,...,i,...,j\}$
其中下标 $i + n$ 表示 $t - 1$ 帧的目标 $i$ 和第 $t$ 帧检测的目标 $n$ 的组合，那么轨迹中与Groundtruth $T^t_i$ 最相似的是：
$\hat T^t_{i+i}=(\hat T^{t-1}_i,b^t_i)$
那么 $\hat\mathcal T^{t}_i/ \hat T^t_{i+i}$ 表示在候选轨迹 $\hat\mathcal T^{t}_i$ 中剔除得分最高的 $\hat T^t_{i+i}$ ，那么剩下的就是非目标 $i$ 的预测轨迹，可能是其他跟踪目标也可能是误检目标，单对于目标 $i$ 来说都是错的，所以作者要抑制这些得分定义了margin损失 $(L_{margin})^t_i$ ，表示 $t$ 帧目标 $i$ 的margin损失 $L_{margin}$ ：
$(L_{margin})^t_i=\sum_{{\hat T^t_{i+n}\in {{\hat{\mathcal T}^t_i}/{\hat T^t_{i+i}}}}}max(0,Sigmoid(f_s({\hat T^t_{i+n}}))-Sigmoid(f_s(T^t_i))+α)$ $n\in \{1,2,..,i-1,i+1,...,j\}$
如果第 $t$ 帧目标检测出 $s$ 个目标，跟踪目标总共有 $j$ 个，那么 $L_{margin}$ 需要计算 $j$ 次。
上面的margin损失试图从候选中区分真实轨迹，而不能量化候选之间的差异。具有较低身ID切换的候选轨迹应具有较高的传播保留率。但是，IDS是不可区分的指标，无法直接优化。可以采用成对排名损失并在连续函数中对不可微度量进行编码。
$(L_{rank})^t=\sum_{\hat T^t_{i+i},{\hat T^t_{j+j}\in \hat \mathcal T^t}}Sigmoid(γ×(f_s(\hat T^t_{i+i})-f_s(\hat T^t_{j+j})))$ $\left\{\begin{array}{lr} \gamma=1 & \text { if } \operatorname{IDS}\left(\hat T^t_{i+i}\right)>\operatorname{IDS}\left(\hat T^t_{j+j}\right) \\ \gamma=-1 & \text { if } \operatorname{IDS}\left(\hat T^t_{i+i}\right)<\operatorname{IDS}\left(\hat T^t_{j+j}\right) \end{array}\right.$
那么最后的总损失：
$L^t=L_{margin}^t+L_{rank}^t$

[SBTO算法]

作者提出了一个基于送搜索的tracklet优化算法(Search-Based Tracklet Optimizing)，算法的步骤：
①对于一个特定的跟踪对象 $i$ ，第 $t$ 帧时，在很多候选轨迹中选取了最高的 $K$ 个轨迹， $\hat \mathcal T_i^t=\{\hat T^t_{i+1},\hat T^t_{i+2},...,\hat T^t_{i+K}\}$ 。为了方便，先写成 $\hat \mathcal T_i^t=\{\hat T^t_{1},\hat T^t_{2},...,\hat T^t_{K}\}$
②在第 $t + 1$ 帧时，通过目标检测算法检测到 $C$ 个物体，那么将 $\hat \mathcal T_i^t$ 中所有的tracklet再加上1帧的结果就可以组成 $\hat \mathcal T_i^{t+1}$ ， $t$ 帧的tracklet共有 $K$ 种， $t + 1$ 帧的检测结果有 $C$ 种，那么 $\hat \mathcal T_i^{t+1}$ 种会包含 $K \times C$ 种，即： $\hat \mathcal T_i^{t+1}=\{\hat T^t_{1+1},\hat T^t_{1+2},...,\hat T^t_{1+C},...,\hat T^t_{K+1},\hat T^t_{K+2},...,\hat T^t_{K+C}\}$
③通过 $f_s(.)$ 对 $\hat \mathcal T_i^{t+1}$ 中的tracklet进行评分，分数降序排列。
④排列完成后，选取排列前 $K$ 的tracklet更新成为第 $t + 1$ 的 $\hat \mathcal T_i^{t+1}$ ，相当于从原先 $K \times C$ 个tracklet剪枝到 $K$ 个tracklet，可以表示为：
$\hat \mathcal T_i^{t+1}=\{\hat T^{t+1}_{1},\hat T^{t+1}_{2},...,\hat T^{t+1}_{K}\}$
同样的步骤可以继续得到 $\hat \mathcal T_i^{t+2}、\hat \mathcal T_i^{t+3}...$ 。
⑤计算损失：
$L_{total}=\sum^{N-1}_{t=1}L_{t+1}$
注意以上的算法时训练的算法，训练的过程中会提供Groundtruth，保证评分网络对Groundtruth的评分尽量为1，而 $\hat \mathcal T_i^t$ 中评分最高的 $K$ 个tracklet作者认为全都是错的，要通过训练优化损失，抑制评分最高的 $K$ 个tracklet，这样就能保证正确的tracklet评分高，错误的tracklet评分低。就像下图所示：

下面是作者展示的算法流程，本文符号与作者算法的符号不太一样，仅供参考。

[评分网络的结构]

下面作者介绍了评分网络的结构，但是介绍的不是很多，使用的是LSTM的结构。下图右侧就是上面说的SBTO的流程，左侧是评分网络的流程。

每一帧的截取目标送入卷积网络生成 $φ$ ， $φ$ 是一个一维向量，然后生成隐藏状态 $h$ ， $h$ 都是由上一帧的隐藏状态和当前帧的 $φ$ 生成：
$h_{t+1}=f(h_t,φ_{t+1})$
之后作者介绍不太清楚，可能可能可能是这样。实线表示 $t$ 帧的时候对所有 $0 - t$ 帧的隐藏状态进行加权求和得到实心蓝色的部分，当 $t + 1$ 帧的时候，所有 $0 - t + 1$ 帧的隐藏状态加权求和(空心蓝色部分)会替代或者组合实心蓝色的部分，然后和当前的隐藏状态同时输入全连接层输出评分。