SiamMOT：Siamese Multi-Object Tracking论文详读

最新推荐文章于 2023-12-18 09:51:09 发布

小白 AI 日记

最新推荐文章于 2023-12-18 09:51:09 发布

阅读量2.2k

点赞数 1

文章标签：磕磕绊绊

本文链接：https://blog.csdn.net/qq_37662375/article/details/122291880

版权

论文地址：https://assets.amazon.science/ee/91/c7a6a6c942aa9c4aca99d71191ea/slimmot-siamese-multi-object-training.pdf

一、摘要

1.本文工作主要是针对SiamNet-base object tracking的优化改进
但我觉得对其他类型的object tracking工作也是很有借鉴意义的

2.SiamMOT在SiamNet-base object tracking的基础上加入了一个运动模型，并证明了加入运动模型的必要性

3.该运动模型分为隐式建模(IMM)运行和显式建模(EMM)两种
该运动模型用于估计两帧之间实例的运行情况，以便检测到的实例相关联

4.在MOT17、TAO-person以及Caltech Roadside Pedestrians三个数据集上证明了运行建模对于MOT任务的必要性，并表明SiamMOT取得了SOTA
并在ACM MM'20 HiEve Grand Challenge的HiEve数据集上性能优于winners

5.SiamMOT同时也是efficient的，在单GPU输入720P的视频能达到17FPS

二、Introduction中提出的一些观点

1.把早期的跟踪工作描绘为一个在tracking-by-detection”范式(paradigm)基础下的基于图的优化问题(graph-based optimization problem)
每个节点(node)表示一个检测(detection)；每条边对两个节点链接的可能性进行编码，一般使用视觉和运动的组合来表示每个节点

2.之前的工作通常需要构建一个很大的离线图，所以很不适用于实时系统

3.近期也出现了一些实施跟踪的工作，专注于改进连续帧上的本地链接，而不是构建离线图来重新识别跨越大的时间间隔的实例

4.作者认为在SORT中一个较好的运行模型是提高其局部连接精度的关键
SORT中使用的传统算法KF运动建模，而Trackor++和CenterTrack是使用CNN基于视觉和几何特征对运动建模

三、方法论和试验结果先知

方法

1.使用基于区域的暹罗网络(region-based Siamese Network)，其中“基于区域”的说法来自region-
based detection network即使用了Faster-RCNN，称为SiamMOT
基于区域的说法同时也是为了区分于CenterTrack工作中基于点特征隐式推断实例运动

2.此外在基于暹罗网络的单目标跟踪任务的启发下，提出了IMM和EMM两种运动建模方法

试验结果

1.证明：在三个不同的多人跟踪数据集进行了广泛的消融分析后的结果表明，实例级运动建模对于健壮的在线MOT非常重要，特别是在更具挑战性的跟踪场景中。
此外证明SiamMOT的运动模型可以显著提高跟踪性能，特别是在摄像机快速移动和人体姿势显著变形的情况下。

2.在MOT17数据集上以DLA-34为backbone的、带有EMM的、使用公共检测(public detection)的SiamMOT实现了65.9的MOTA和63.3的IDF1

3.最近的TAO-person数据集的TrackAP指标从Trackor++的36.7提升至了41.1

4.Human In Events(HiEve)数据集上取得了最好的结果

四、变量声明

先对整体框架有个大致的了解，便于了解“运动建模”这部分的位置

参数解读一下吧，对这个过程基本就能了解了

图1：SiamMOT是一个基于区域的多目标跟踪网络，可同时检测和关联对象实例。暹罗跟踪器对跨帧的实例运动进行建模，用于在线多目标跟踪中的临时链接检测。帧 $I^{t}$ 的主干特征图以其实际大小的1/2可视化。

输入变量

$I^{t}$ 和 $I^{t+\delta }$ 分别表示两个时刻的帧

$R^{t}=\left\{R_{1}^{t}, \ldots R_{i}^{t}, \ldots\right\}$ 表示时刻一系列的检测实例(instances)(即是box)

输出变量

输出的 $R^{t+\delta }$ 是由 $\tilde{R}^{t+\delta }$ 和 ${R}^{t+\delta }$ 经空间匹配后经求解器求解出的

过程量

$\tilde{R}^{t+\delta }$ 是跟踪器将 $R^{t}$ 传播到 $t+\delta$ 时刻产生的

过程量的 $R^{t+\delta }$ 表示对 $t+\delta$ 时刻输入帧预测的一系列实例(instances)(即是box)(注意这里的 $R^{t+\delta }$ 有两个，一个是输出量，一个是过程量)

为区域提议

为过程特征图

Siamese Track $\mathcal{T}\$ 在整个框架中表示的是一个跟踪过程，其实它就是我们接下来要重点提到的运动建模部分，如下原文

五、对主要创新点-两种运动建模的解读统一形式

建立一个统一的形式：

$\left(v_{i}^{t+\delta}, \tilde{R}_{i}^{t+\delta}\right)=\mathcal{T}\left(\mathbf{f}_{R_{i}}^{t}, \mathbf{f}_{S_{i}}^{t+\delta} ; \Theta\right)$

这段就不翻译了，我觉得原汁原味的英语更容易理解

1. Implicit motion model

隐式运动模型使用MLP隐式估计两帧之间的实例级运动，如图

IMM通过将特征 $\mathbf{f}_{R_{i}}^{t}$ 和 $\mathbf{f}_{S_{i}}^{t+\delta}$ 按通道连接在一起后送入MLP中预测可见置信度 $v_{i}$ 以及相关位置及范围变化 $m_{i}$ ， $m_{i}$ 定义为下式，其中的 $\left(x_{i}^{t}, y_{i}^{t}, w_{i}^{t}, h_{i}^{t}\right)$ 为目标box $R_{i}^{t}$ 的4个参数：

$m_{i}=\left[\frac{x_{i}^{t+\delta}-x_{i}^{t}}{w_{i}^{t}}, \frac{y_{i}^{t+\delta}-y_{i}^{t}}{h_{i}^{t}}, \log \frac{w_{i}^{t+\delta}}{w_{i}^{t}} \log \frac{h_{i}^{t+\delta}}{h_{i}^{t}}\right]$

利用这些便可从方程的逆变换中很容易地推导出 $\tilde{R}^{t+\delta}$

使用的loss形式为 $\mathbf{L}=\ell_{\text {focal }}\left(v_{i}, v_{i}^{*}\right)+\mathbb{1}\left[v_{i}^{*}\right] \ell_{\text {reg }}\left(m_{i}, m_{i}^{*}\right)$ ，其中的 $\mathbb{1}$ 为指示函数(indicator function)

2. Explicit motion mode

显式运动建模的流程如图

可以看到主要利用的是逐通道互相关操作(*表示)，具体来说是通过逐通道互相关操作来生成像素级别的特征响应图 $r_{i}$ 。
之后通过使用CNN $\psi$ 以两个分支分别进行卷积操作。其中一个分支负责预测密集的可见性置信度图 $v_{i}$ ，用以指示每个像素包含目标对象的可能性。另一个分支负责预测密集的位置特征图 $p_{i}$ ，用以对从该位置到左上角和右下角的偏移量进行编码。

因此，我们可以通过以下变换导出(x, y)处的实例区域： $\mathcal{R}(\mathbf{p}(x, y))=[x-l, y-t, x+r, y+b]$ ，其中 $\mathbf{p}(x, y)=[l, t, r, b]$ ，也就是左上角和右下角的偏移量。

最后的运动估计就可表示为：

$\begin{array}{r} \tilde{R}_{i}^{t+\delta}=\mathcal{R}\left(\mathbf{p}_{i}\left(x^{*}, y^{*}\right)\right) ; \quad v_{i}^{t+\delta}=\mathbf{v}_{i}\left(x^{*}, y^{*}\right) \\ \text { s.t. }\left(x^{*}, y^{*}\right)=\underset{x, y}{\operatorname{argmax}}\left(\mathbf{v}_{i} \odot \boldsymbol{\eta}_{i}\right) \end{array}$

其中⊙是逐个元素的乘法， $\eta_{i}$ 是指定相应候选区域的非负惩罚分数的惩罚映射，由 $\boldsymbol{\eta}_{i}(x, y)=\lambda \mathcal{C}+(1-\lambda) \mathcal{S}\left(\mathcal{R}(\mathbf{p}(x, y)), R_{i}^{t}\right)$ 计算得到。其中 $\mathcal{S}$ 为高斯函数，负责评价 $\mathcal{R}(\mathbf{p}(x, y))$ 和 $R_{i}^{t}$ 的相关性。 $\mathcal{C}$ 是关于之前目标区域 $R_{i}^{t}$ 的几何中心一个余弦窗函数。

损失函数形式为：

$\begin{aligned} \mathbf{L} &=\sum_{x, y} \ell_{f o c a l}\left(\mathbf{v}_{i}(x, y), \mathbf{v}_{i}^{*}(x, y)\right) \\ &+\sum_{r} \mathbb{1}\left[\mathbf{v}_{i}^{*}(x, y)=1\right]\left(w(x, y) \cdot \ell_{r e g}\left(\mathbf{p}_{i}(x, y), \mathbf{p}_{i}^{*}(x, y)\right)\right) \end{aligned}$