TransCenter: Transformers with Dense Queries for Multiple-Object Tracking

论文地址:TransCenter: Transformers with Dense Queries for Multiple-Object Tracking


主要贡献:

  1. 使用transformer进行多目标中心追踪,定义为TransCenter
  2. 提出多尺度密集query推理位置热图,·使用学习层在当前图的编码上计算得出。

介绍和相关工作

作者认为TransTrack 和 TrackFormer使用Bbox表示行人是很容易理解的,因为检测中边界框也是广泛使用的,但是当处理密集场景的情况,基于边界框的追踪方法往往会有很多缺点,并且基于框的方法往往由于重叠性很难处理遮挡问题。本论文,作者基于Transformer的center检测方法,去解决遮挡问题。

首先第一个困难就是获得密集表示(如中心热图),为此作者提出使用(像素级别)密集多尺度query。除了允许基于热图的MOT外,密集query的使用克服了用少量query查询解码器所带来的限制。

TransCenter有两个不同的解码器:一个用于行人检测,一个用于行人追踪。两个解码器基于当前图片在不同的可学习层提取query。当前帧的的缓存(transformer编码器的输出)送于检测解码器,过去帧的缓存送到追踪解码器。

基于点的检测方法表面了基于anchor的检测方法对于MOT来说不一定是最合适的,作者这里也是使用点来进行追踪。

TransCenter

过去的基于Transformer的工作都尝试学习边界框的推理,但是作者探索了一种另外的可替代的方法:热图。但是,不同于边界框,热图是密集的,而不是稀疏的。所以,作者引入了密集多尺度query,并且这应该是第一次使用密集query的特征图来进行缩放输入图像。实验中,decoder大概有14k个query。考虑到内存损耗,受可变卷积启发,提出了可变解码器。

作者将MOT任务分解为两个子任务,一个是在时间 t t t的目标检测任务,以及和时间 t − 1 t-1 t1的检测进行关联的关联任务。通过使用全可变性双解码结构,两个任务平行工作。检测解码器的输出用于估计检测的中心和大小,通过和追踪解码器的组合,估计目标的位移。通过组合中心热图和一个双向解码结构,目标关联不仅可以依赖几何特征(IoU),还可以依赖解码器的视觉特征。

概述

网络总体框架如下图所示:
在这里插入图片描述
t t t帧和 t − 1 t-1 t1帧的视频图像喂入CNNbackbone产生多尺度特征,然后通过可变编码器分别产生缓存 M t M_t Mt M t − 1 M_{t-1} Mt1 M t M_t Mt通过两个query学习网络(QLN)获得密集多尺度检测和追踪query( D Q T DQ_T DQT T Q t TQ_t TQt)。 D Q T DQ_T DQT T Q t TQ_t TQt顺带 M t M_t Mt M t − 1 M_{t-1} Mt1分别喂入检测和追踪可变性解码器,获得输出多尺度检测和追踪特征( D F t DF_t DFt T F t TF_t TFt),用于估计中心热图和目标尺寸。所有的多尺度特征和生成的 t − 1 t-1 t1帧的中心热图一起计算每个中心点的位移。

密集多尺度query

传统的Transformer输出和输出元素相同,这些输出和实体相关(行人边界框)。当推导中心热图的时候,一个像素成为行人中心的概率成为了这样的实体,需要解码器来获得这些编码器加上QLN产生的多尺度密集query。两个QLN,一个用于前向传播进行像素级处理,获得 D Q t DQ_t DQt,第二个通过处理 D Q t DQ_t DQt来获得 T Q t TQ_t TQt。都送入完全可变性双解码器中。

完全可变性双解码器

通过两个子可变性解码器分别平行处理检测和追踪两个子任务,检测解码器通过 D T t DT_t DTt M t M_t Mt,加上注意力模块获得 I t I_t It的目标检测,追踪解码器通过 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1来将检测目标和他们在过去图片 I t − 1 I_{t-1} It1上的位置进行关联。

具体的检测编码器通过多尺度特征 D Q t DQ_t DQt输出多尺度检测特征 D F t DF_t DFt,用于寻找目标中心和边界框大小。 可变形追踪编码器找到 M t − 1 M_{t-1} Mt1中的目标,将他们和 t t t中的目标进行关联。为此,追踪编码器中的多头可变性注意力实现了多尺度特征 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1之间的时序交叉关联,输出多尺度追踪特征 T F t TF_t TFt T F t TF_t TFt包含用于估计位移的时序信息。

检测和追踪解码器都输入密集query特征图,同属输出密集信息。但是传统Transformer中的多头注意力模型占存很大且算力复杂,为此作者使用可变形多头注意力层来代替传统注意力层处理多尺度特征。

中心、大小和追踪分支

解码器生成的两个多尺度特征图 D F t DF_t DFt T F t TF_t TFt分别缩放为原图的1/64, 1/32, 1/16 和1/8的分辨率大小。对于中心点和目标大小分支,不同分辨率的特征图通过可变性卷积和双线性差值进行组合,如下图结构:
在这里插入图片描述
最终获得1/4的原图分辨率大小的特征图 C t ∈ [ 0 , 1 ] H / 4 × W / 4 C_t\in [0,1]^{H/4\times W/4} Ct[0,1]H/4×W/4 S t ∈ [ 0 , 1 ] H / 4 × W / 4 × 2 S_t\in [0,1]^{H/4\times W/4\times 2} St[0,1]H/4×W/4×2 S t S_t St的两个通道编码了长和宽。

对于追踪分支,两个多尺度特征通过相同的(不同参数)上采样获得两个1/4分辨率大小特征图。两个特征图和下采样后的过去的中心热图 C t − 1 C_{t-1} Ct1进行concat,和其他分支一样,一个卷积层块计算最终的输出,如目标位移 T t ∈ R H / 4 × W / 4 × 2 T_t\in R^{H/4\times W/4\times 2} TtRH/4×W/4×2,两个通道代表水平和垂直位移。

训练

TransCenter通过联合学习目标中心热度图的分类任务和一个目标大小及追踪位移的回归任务组成。

中心focal_loss:
为了训练中心分支,需要构建GT热度图 C ∗ ∈ [ 0 , 1 ] H / 4 × W / 4 C^*\in [0,1]^{H/4\times W/4} C[0,1]H/4×W/4。我们通过考虑以每一个 K > 0 K >0 K>0为中心的高斯核集的最大响应构造 C ∗ C^∗ C。对于每个像素位置 ( x , y ) (x,y) (x,y),GT热图表示为:
C x y ∗ = max ⁡ k = 1 , … , K G ( ( x , y ) , ( x k , y k ) ; σ ) (1) \mathbf{C}_{x y}^{*}=\max _{k=1, \ldots, K} G\left((x, y),\left(x_{k}, y_{k}\right) ; \sigma\right) \tag{1} Cxy=k=1,,KmaxG((x,y),(xk,yk);σ)(1)
其中 ( x k , y k ) (x_k,y_k) (xk,yk)为GT框的中心, G ( ⋅ ; ⋅ ; σ ) G(·;·;σ) G(σ)表示以σ为传播因子的高斯核,实验中设置为目标大小。考虑到GT C ∗ C^∗ C和推理 C C C中心热图,使用中心focal loss L c L_c Lc计算损失: L C = 1 K ∑ x y { ( 1 − C x y ) α log ⁡ ( C x y ) C x y ∗ = 1 ( 1 − C x y ∗ ) β ( C x y ) α log ⁡ ( 1 − C x y )  otherwise  (2) L_{\mathrm{C}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left(1-\mathbf{C}_{x y}\right)^{\alpha} \log \left(\mathbf{C}_{x y}\right) & \mathbf{C}_{x y}^{*}=1 \\ \left(1-\mathbf{C}_{x y}^{*}\right)^{\beta}\left(\mathbf{C}_{x y}\right)^{\alpha} \log \left(1-\mathbf{C}_{x y}\right) & \text { otherwise } \end{array}\right. \tag{2} LC=K1xy{(1Cxy)αlog(Cxy)(1Cxy)β(Cxy)αlog(1Cxy)Cxy=1 otherwise (2)
缩放因子α = 2 ,β = 4。

稀疏回归损失:
S S S T T T只在那些目标中心存在的位置进行监督,例如在 C x y ∗ = 1 C^*_{xy}=1 Cxy=1使用L1损失进行监督:
L S = 1 K ∑ x y { ∥ S x y − S x y ∗ ∥ 1 C x y ∗ = 1 0  otherwise  (3) L_{\mathrm{S}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left\|\mathbf{S}_{x y}-\mathbf{S}_{x y}^{*}\right\|_{1} & \mathbf{C}_{x y}^{*}=1 \\ 0 & \text { otherwise } \end{array}\right. \tag{3} LS=K1xy{SxySxy10Cxy=1 otherwise (3)

L t L_t Lt L s L_s Ls使用追踪输出和GT相似计算。并且为了弥补稀疏问题,加入一个额外的L1回归损失,表示为 L R L_R LR计算由 S t S_t St计算的边界框的中心和GT中心的损失。

总体损失为所有损失之和: L = L C + λ S L S + λ T L T + λ R L R (4) L=L_{\mathrm{C}}+\lambda_{\mathrm{S}} L_{\mathrm{S}}+\lambda_{\mathrm{T}} L_{\mathrm{T}}+\lambda_{\mathrm{R}} L_{\mathrm{R}} \tag{4} L=LC+λSLS+λTLT+λRLR(4)

实验

匹配关联还是直接使用的匈牙利算法,保留60帧。
网络方面,输入图片为640 × 1088,编码器和解码器有6层256维度的8个注意力头。QLN由连个全连接层加rulu几号组成。CNN的bakbone为ResNet-50。训练损失权重 λ S = 0.1 , λ R = 0.5 、 λ T = 1.0 λ_S = 0.1, λ_R = 0.5、 λ_T = 1.0 λS=0.1,λR=0.5λT=1.0,总体优化为AdamW优化器。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值