Rethinking the competition between detection and ReID in Multi-Object Tracking

CSTracker

论文标题:Rethinking the competition between detection and ReID in Multi-Object Tracking

论文地址:https://arxiv.org/abs/2010.12138

论文源码:https://github.com/JudasDie/SOTS

基于JDE框架提出的改善模型。出自中国科学院自动化研究所

Motivation

​ 为了追求速度和精度的平衡,联合训练检测模型和 ReID 模型的 JDE 范式。

在这里插入图片描述

​ 然而,就像之前 FairMOT 分析的那样,检测和 ReID 模型是存在不公平的过度竞争的,这种竞争制约了两个任务(检测任务和 ReID 任务 )的表示学习,导致了学习的混淆。具体而言,检测任务需要的是同类的不同目标拥有相似的语义信息(类间距离最大)而 ReID 要求的是同类目标有不同的语义信息(类内距离最大)。此外,目标较大的尺度变化依然是 MOT 的痛点。在 ReID 中图像被调整到统一的固定尺寸来进行查询 ,而在 MOT 中,提供在 ReID 网络的特征需要拥有尺度感知能力,这是因为沿着帧目标可能会有巨大的 size 变化。

​ 为了解决上述的过度竞争问题,论文提出了一种新的交叉相关网络(CCN)来改进单阶段跟踪框架下 detection 和 ReID 任务之间的协作学习。作者首先将 detection 和 ReID 解耦为两个分支,分别学习。然后两个任务的特征通过自注意力方式获得自注意力权重图和交叉相关性权重图。自注意力图是促进各自任务的学习,交叉相关图是为了提高两个任务的协同学习。而且,为了解决上述的尺度问题,设计了尺度感知注意力网络(SAAN)用于 ReID 特征的进一步优化,SAAN 使用了空间和通道注意力,该网络能够获得目标 不同尺度的外观信息,最后 不同尺度外观特征融合输出即可。

Methodology

​ 整体的思路还是采用 JDE 的框架,下图的右图是整体 pipeline 的设计,和左侧的 JDE 相比,中间增加了一个 CCN 网络(交叉相关网络)用于构建 detection 和 ReID 两个分支不同的特征图。构建的两个特征图分别送入 Detection head 和 SAAN(多尺度+注意力+ReID)中,Detection head 将 JDE 的 YOLO3 换为了更快更准的 YOLO5,其他没什么变动。检测完成的同时,SAAN 也输出了多尺度融合后的 ReID 特征,至此也就完成了 JDE 联合检测和 ReID 的任务,后续就是关联问题了。

在这里插入图片描述

互相关网络(Cross-correlation Network,CCN)

​ CCN(Cross-correlation Network)用于提取更适合 detection 和 ReID 任务的一般特征和特定特征。在特定性学习方面,通过学习反映不同特征通道之间相互关系的自联系,增强了每个任务的特征表示。对于一般性学习,可以通过精心设计的相互关系机制来学习两个任务之间的共享信息。

在这里插入图片描述

​ CCN 的结构如上图。从检测器的 backbone 得到的特征图为 F ∈ R C × H × W \mathbf{F} \in R^{C \times H \times W} FRC×H×W,首先,这个特征经过平均池化降维获得统计信息(更精炼的特征图) F ′ ∈ R C × H ′ × W ′ \mathbf{F}^{\prime} \in R^{C \times H^{\prime} \times W^{\prime}} FRC×H×W。然后,两个不同的卷积层作用于 F ′ \mathbf{F}^{\prime} F生成两个特征图 T 1 \mathbf{T_1} T1 T 2 \mathbf{T_2} T2,这两个特征图被 reshape 为特征$ \left{\mathbf{M}{\mathbf{1}}, \mathbf{M}{\mathbf{2}}\right} \in R^{C \times N{\prime}}(N{\prime}=H^{\prime} \times W^{\prime}) 。 下 面 的 上 下 两 个 分 支 操 作 是 一 致 的 , 先 用 矩 阵 。下面的上下两个分支操作是一致的,先用矩阵 \mathbf{M_1}$或者 M 2 \mathbf{M_2} M2和自己的转置矩阵相乘获得各自的自注意力图 { W T 1 , W T 2 } ∈ R C × C \left\{\mathbf{W}_{\mathrm{T}_{1}}, \mathbf{W}_{\mathrm{T}_{2}}\right\} \in R^{\mathrm{C} \times \mathrm{C}} {WT1,WT2}RC×C,然后 M 1 \mathbf{M_1} M1 M 2 \mathbf{M_2} M2的转置进行矩阵乘法获得互注意力图 { W S 1 , W S 2 } ∈ R C × C \left\{\mathbf{W}_{\mathrm{S}_{1}}, \mathbf{W}_{\mathrm{S}_{2}}\right\} \in R^{\mathrm{C} \times \mathrm{C}} {WS1,WS2}RC×C(这是$\mathbf{M_1} 的 , 转 置 之 后 s o f t m a x 就 是 的,转置之后 softmax 就是 softmax\mathbf{M_2}$ 的)。然后,对每个分支,自注意力图和互注意力图相加获得通道级别的注意力图,和原始的输入特征图 F \mathbf{F} F相乘再和 F \mathbf{F} F相加得到输出特征图 F T 1 \mathrm{F}_{\mathrm{T} 1} FT1 F T 2 \mathrm{F}_{\mathrm{T} 2} FT2

尺度感知注意力网络(Scale-aware Attention Network,SAAN)

​ 上述学到的 F T 1 \mathrm{F}_{\mathrm{T} 1} FT1用于 Detection head 的检测处理,后者则用于下面的 SAAN 中 ReID 特征的处理。

在这里插入图片描述

工作流程:

  1. 把1/16和1/32尺度(与输入图像的大小相比)的特征先被采样到1/8,然后使用3×3的卷积层对重塑的特征映射进行编码
  2. 引入空间注意力机制来处理特征,为了增强目标相关特征,同时抑制背景噪声,见图b
  3. 将不同尺度的特征在通道方向连接在一起,通过通道注意力机制学习对每一个特征语义通道的注意力权重,实现对通道关注度的调节,见上图(c)
  4. 点乘上注意力权重的特征图通过卷积操作获得的特征输出 E ∈ R 512 × W × H \mathbf{E} \in R^{512 \times W \times H} ER512×W×H,目标的ID信息特征 E x y ∈ R 512 × 1 × 1 \mathbf{E_{x y}} \in R^{512 \times 1 \times 1} ExyR512×1×1表示的 ( x , y ) (x,y) (x,y)处目标的锚点所提取的特征图。

第二步是对每一个尺度学习一个空间注意力的mask,对每一个尺度的特征图在空间上做权重调制,使得每一个目标在不同尺度下获得的关注不同,以缓解MOT中目标尺寸变化大和目标重叠问题

Experiment

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值