CSTrack：Rethinking the competition between detection and reid in multi-object tracking

最新推荐文章于 2023-07-21 09:13:03 发布

三木ぃ

最新推荐文章于 2023-07-21 09:13:03 发布

阅读量976

点赞数 4

分类专栏：多目标跟踪（MOT）文章标签：深度学习机器学习计算机视觉多目标追踪目标跟踪

本文链接：https://blog.csdn.net/qq_41214679/article/details/113121478

版权

多目标跟踪（MOT）专栏收录该内容

30 篇文章 50 订阅

订阅专栏

论文地址：链接
源码地址：链接

主要创新点：

提出了一个新颖的交叉关联网络建模学习独立任务表达，有效减少检测和ReID任务竞争，且增加任务之间的协同。
引入一个尺度感知网络来融合特征，从而提升不同尺度下的目标特征的弹性。

一、相关介绍

首先剖析目前one-shot方法的过程的缺陷。

检测和ReID任务之间存在大量额外的计算：
当前one-shot方法以及将目标类别置信度，目标位置信息和ID信息都由一个Embedding表示，虽然有效，但是忽略了他们之间的区别。这个embedding的学习可能是模糊的，只为了追求一个任务最终性能的话，可能会导致另一个表现的下降。例如检测任务中需要相同类的不同目标的embedding具有相似的语义，而ReID任务可能需要学习两目标之间的区别性语义。
MOT中的大尺度变化：
传统ReID任务中的图片大小一般固定为256×128，但是在多目标中，目标会逐帧动态的改变，因此需要具有尺度感知能力。但是，最近的one-shot方法都考虑的是使用单一的分辨率，缺少了缩放后目标的表示能力。

为了缓解竞争问题，CSTrack首先将检测和ReID任务进行解耦为两个独立的分支，用以学习独立任务表示。然后将给予两任务的特征使用自注意力进行自关联和交叉关联。自关联促进独立任务学习，交叉关联促进两者协同学习。同时为了结尾目标缩放问题，引入了一个尺度感知网络，即使用一个空间和通道注意力机制，作用于特征，从而提升不同分辨率下的目标相关的嵌入的影响，最后整合不同高分辨率的特征作为输出，帮助学习缩放感知表达。

二、方法

基于JDE采用两个分支的结构来加强检测和ID embedding任务，如下图1。但是JDE的检测和IDembedding使用相同的特征作为输入。为了强化任务间的独立性，CSTrack改变了这个思想，受自注意力和多头嵌入机制启发，使用一个新颖的交叉关联网络（CCN）来解耦输入，如图2。对于ID embedding分支，考虑到JDE只是用1×1卷积作用于来自固定的分辨率的原始图像产生的特征图，缺少表示不同大小目标的能力，所以这里改良为一个规模感知自注意网络（SAAN）来进行不同分辨率特征融合，如图3。
在这里插入图片描述

2.1 交叉关联网络(CCN)

在这里插入图片描述
该网络用于学习检测和ReID任务的共性和特性。不同通道间的自关联映射关系来增强特征表示的个性，通过一个互相关机制共享两任务的特征来实现共性学习。

CCN结构如图2所示，设检测获得特征为 $F∈R^{C×H×W}$ 。通过一个平均池化层获得统计信息 $F'∈R^{C×H'×W' }$ 。 $T_1$ 和 $T_2$ 是通过 $F^{'}$ 经过不同的卷积操作获得的两种特征图，将他们reshape为 $\{M_1,M_2\}\in R^{C×N'}$ ，其中 $N^{'} = H^{'} \times W^{'}$ 。如图2，对 $M 1 / M 2$ 和他们的转置分别进行矩阵乘法。最后通过一个row softmax层，获得每个任务的自相关权重映射 ${W_{T_1} ,W_{T_2}\} ∈ R^{C×C}$ ，最终计算结果为：
$w_{T_{k}}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{k}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{k}}^{\mathbf{j}}\right)}, \mathbf{k} \in\{1,2\} \tag{1}$
其中 $w_{T_{k}}^{i j}$ 代表通道 $i$ 和 $j$ 在 $T_k$ 内的关系。

类似的在矩阵 $M_!$ 和 $M_2$ 的转置进行矩阵乘法，在通过row softmax层，获得交叉权重映射 ${W_{S_1} ,W_{S_2}\} ∈ R^{C×C}$ ：
$w_{S}^{i j}=\frac{\exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)}{\sum_{j=1}^{C} \exp \left(\mathbf{M}_{\mathbf{1} / \mathbf{2}}^{\mathbf{i}} \cdot \mathbf{M}_{\mathbf{2} / \mathbf{1}}^{\mathbf{j}}\right)} \tag{2}$

$w_{S}^{i j}$ 表示某个任务第 $i$ 个通道对另一个任务的第 $j$ 个通道的作用。

通过一个可训练的参数 $λ$ ，将两个权重融合，获得 ${W_{1} ,W_{2}\} ∈ R^{C×C}$ ：
$\mathbf{W}_{\mathbf{1} / \mathbf{2}}=\lambda \times \mathbf{W}_{\mathbf{T}_{1} / \mathbf{T}_{2}}+(1-\lambda) \times \mathbf{W}_{\mathbf{S}_{1} / \mathbf{S}_{2}} \tag{3}$

最后，将原始特征图 $F$ 重排序为 $R^{C×N}，N = H×W$ 。分别和学习到的权重映射进行矩阵乘法，最终获得每个任务的增强表示，这种残差形式也可以防止信息丢失。

2.2 尺度感知注意力网络(SAAN)

在这里插入图片描述
如图3，通过SAAN来完成不同分辨率下的特征聚合，从而保证ID embedding的鲁棒性。首先将1/16和1/32比例的特征(相对于输入图像的大小)上采样为1/8，通过3 × 3卷积层进行特征编码。

为了增强目标相关特征，抑制背景噪声，引入空间注意力（SAM）来处理特征，如图3 (b)所示。

然后将不同的尺度的特征图concat到一起，送入由平均池化和最大池化组成的通道注意力模型（CAM）中，用以学习输入特征的不同统计信息，最后输出层是一个1D的卷积层和一个全连接层，然后通过元素相加来连接。

学习到的1D通道注意力映射是通过元素乘法在特征上应用的。最后使用3×3的卷积层将特征图投影到512个通道，即为 $E\in R^{512×W×H}$ 。在(x,y)出的目标锚的ReID特征 $E_{xy}\in R^{512×1×1}$ 可以由后续的ReID任务提取。ID训练损失和训练方法学习JDE。

三、实验

1.消融实验：
在这里插入图片描述

JDE和CSTrack的ID embedding特征的关联可视化比较（CSTrack可以获得一些具有辨别性的ID特征）：
在这里插入图片描述
对比：

三木ぃ

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CSTrack：Rethinking the competition between detection and reid in multi-object tracking

为了平衡速度和精度，联合检测和ReID的one-shot方法越来越引起注视，但是他们之间的区别却又被忽视，从而导致了JDE范式表现不如二阶段的方法。本论文主要剖析了两任务的区别，并且在此基础上提出了一个新颖的交叉相关的网络，来推动独立分支学习任务相关表示。并且引入了一种学习判别性嵌入的尺度感知注意网络，提高了该网络的ReID能力。将他们集成到一个online 的one-shot模型中，成为CSTrack。
复制链接

扫一扫