STMTrack: Template-free Visual Tracking with Space-time Memory Networks
论文地址:https://arxiv.org/pdf/2104.00324
动机:
离线训练的连体跟踪器的提升性能现在变得更加困难,因为从第一帧裁剪的模板的固定信息几乎是彻底挖掘的,但它们无法抵抗目标外观变化。现有的带有模板更新机制的跟踪器依赖于耗时的数值优化和复杂的手工设计的策略来实现具有竞争力的性能,阻碍了它们的实时跟踪和实际应用。因此在本文中,提出了一种新的跟踪框架,该框架建立在时空记忆网络之上,该框架能够充分利用与目标相关的历史信息,以更好地适应跟踪过程中的外观变化,而且在运行时也具有更强的鲁棒性和更准确的目标边界框。
贡献:
这篇论文提出了一种基于时空记忆网络的跟踪框架,通过存储与目标相关的历史信息来更好地适应跟踪过程中的外观变化。具体来说,引入了一种新颖的存储机制,该机制能够存储目标的历史信息,以指导跟踪器集中关注当前帧中最具信息量的区域。此外,记忆网络的像素级相似度计算使得跟踪器能够生成更准确的目标边界框。
1、Proposed Method
1.1、Architecture
如图2所示,该框架可以分为特征提取网络、时空记忆网络和头网络三个部分。特征提取网络由内存分支(浅绿色)和查询分支(浅蓝色)组成。内存分支将内存帧和相应的前景-背景标签映射(将在下一节中解释)作为输入,而查询分支的输入仅为单个查询帧。在这项工作中,内存帧是多个历史帧,查询帧是跟踪序列中的当前帧。在特征提取之后,时空记忆网络从所有记忆帧的特征中检索与目标相关的信息,生成合成特征映射以从背景中分类目标并预测查询帧的目标边界框。
1.2、Feature Extraction Network
在这里,我们分别描述了内存分支和查询分支的特征提取过程。
Memory Feature Extraction
内存分支的输入是 T 个内存帧
m
m
m(每一帧是
m
i
m_i
mi),
T
T
T 个前景背景标签图
c
c
c(每个标签映射都是
c
i
c_i
ci),其中
c
c
c是为了确保记忆骨干
φ
m
\varphi_m
φm学习到真实目标特征的一致性,而不是分心物和杂乱的背景信息。具体来说,对于每一个记忆帧
m
i
m_i
mi,我们在相应的地面真实边界框内为每个像素标注1,在其他地方标注0。然后,我们采用 $\varphi_m $的第一个卷积层(由 $\varphi^m_0 $表示)和一个额外的卷积层
g
g
g 分别将
m
m
m 和
c
c
c 映射到相同的嵌入空间。之后,我们按元素方式添加
φ
0
m
(
m
)
\varphi^m_0(m)
φ0m(m) 和
g
(
c
)
g(c)
g(c),然后将总和输入到
φ
m
\varphi_m
φm的后几层以生成
T
T
T 个内存特征图(表示为
f
m
f_m
fm,每个内存特征图为
f
m
i
f_{mi}
fmi )。然后通过非线性卷积层(表示为
h
m
h_m
hm)将
f
m
f_m
fm 的特征维数降低到 512:
f
i
m
=
h
m
(
φ
γ
m
(
φ
0
m
(
m
i
)
⊕
g
(
c
i
)
)
)
f_i^m=h^m(\varphi_\gamma^m(\varphi_0^m(m_i)\oplus g(c_i)))
fim=hm(φγm(φ0m(mi)⊕g(ci)))
其中
f
i
m
∈
R
C
×
H
×
W
f_i^m\in\mathbb{R}^{C\times H\times W}
fim∈RC×H×W,
φ
γ
m
\varphi^m_\gamma
φγm表示
φ
m
\varphi^m
φm的所有层,除了第一层,“⊕”是逐元素相加。
Query Feature Extraction
与内存分支不同,查询分支以查询帧
q
q
q作为输入并产生特征图
φ
q
(
q
)
\varphi^q(q)
φq(q)。与内存分支类似,
φ
q
(
q
)
\varphi^q(q)
φq(q) 的特征维度也通过非线性卷积层(表示为
h
q
h^q
hq )降低到 512:
f
q
=
h
q
(
φ
q
(
q
)
)
f^q=h^q(\varphi^q(q))
fq=hq(φq(q))
其中
f
q
∈
R
C
×
H
×
W
f^q \in \mathbb{R}^{C \times H \times W}
fq∈RC×H×W。
请注意,两个主干 φ m \varphi^m φm和 φ q \varphi^q φq 共享相同的网络架构,但具有不同的参数。
1.3、Space-time Memory Network
如图3所示,我们首先计算
f
m
f_m
fm的每个像素与
f
q
f_q
fq的每个像素之间的相似度,得到一个相似度矩阵
w
∈
R
T
H
W
×
H
W
w\in \mathbb{R}^{THW \times HW}
w∈RTHW×HW。受 [Non-local Neural Networks]的启发,我们期望相似度计算应用高斯函数。因此,我们使用
s
o
f
t
m
a
x
softmax
softmax 函数对
w
w
w进行归一化。例如,取一个元素
w
i
j
w_{ij}
wij,我们可以将
w
i
j
w_{ij}
wij正式表示为:
w
i
j
=
exp
[
(
f
i
m
⊙
f
.
j
q
)
/
s
]
∑
∀
k
exp
[
(
f
k
m
⊙
f
.
j
q
)
/
s
]
w_{ij}=\frac{\exp\left[\left(f_i^m\odot f_{.j}^q\right)/s\right]}{\sum\limits_{\forall k}\exp\left[\left(f_k^m\odot f_{.j}^q\right)/s\right]}
wij=∀k∑exp[(fkm⊙f.jq)/s]exp[(fim⊙f.jq)/s]
其中
i
i
i是
f
m
∈
R
T
H
W
×
H
W
f^m \in \mathbb{R}^{THW \times HW}
fm∈RTHW×HW上每个像素的索引,
j
j
j 是
f
q
∈
R
C
×
H
W
f^q\in \mathbb{R}^{C \times HW}
fq∈RC×HW上每个像素的索引,二进制算子
⊙
\odot
⊙表示向量点积。这里
s
s
s 是一个比例因子,以防止
e
x
p
exp
exp 函数在数值上溢出。我们将
s
s
s 设置为
C
\sqrt{C}
C,其中
C
C
C 是
f
m
f^m
fm的特征维度。
然后,把
w
w
w当作一个软权重图,我们把
f
m
f^m
fm乘以
w
w
w。因为
f
m
f^m
fm存储与目标相关的所有历史记忆信息,所以根据查询框架本身的需要,自适应地检索存储在
f
m
f^m
fm中的目标信息。很明显,读出的信息是一个与
f
q
f^q
fq相同大小的特征图。因此,我们将读出信息和查询特征映射
f
q
f^q
fq 沿通道维度连接起来,生成最终的合成特征图
y
y
y。形式上,对于
y
y
y 的第
i
i
i 个元素,时空内存读取操作可以表示为:
y
i
=
const
(
f
i
q
,
(
f
m
)
i
T
⊗
w
)
y_i=\text{const}\left(f_i^q,\left(f^m\right)_i^T\otimes w\right)
yi=const(fiq,(fm)iT⊗w)
其中
(
f
m
)
T
∈
R
C
×
T
H
W
(f^m)^T\in\mathbb{R}^{C\times THW}
(fm)T∈RC×THW是
f
m
f^m
fm 的转置,
c
o
n
c
a
t
(
⋅
,
⋅
)
concat(·,·)
concat(⋅,⋅) 函数表示连接操作。乍一看,内存读取操作的工作机制类似于非局部自注意力(Non-local Neural Networks)。在视觉跟踪中部署非局部自我注意(Non-local Neural Networks)的一个代表性例子是AlphaRefine,实时跟踪挑战VOT-RT2020的获胜者,使用非本地块来增强由像素级相关产生的响应图,因为较长距离的依赖关系可以产生更精确的目标边界决策信息。不同的是,在我们提出的框架中设计时空记忆阅读器的目的是通过将相似度矩阵作为软权重从多个记忆帧中检索目标信息,而不是计算特征图中每个像素的非局部自我注意。
特别是,与视频对象分割中的STMVOS和GraghMemVOS不同,我们的方法不将 φ m \varphi^m φm和 φ q \varphi^q φq提取的特征划分为键和值,而是直接使用 f m f^m fm和 f q f^q fq来定位目标。动机是,当目标受到查询框架中部分遮挡时, f m f^m fm本身碰巧提供足够的目标信息来寻找目标的暴露部分。这种差异使得时空记忆网络更适合单目标跟踪任务。
1.4、Head Network
在物体检测中,单阶段无锚检测器比单阶段基于锚的方法取得了更好的性能和更少的参数,受此启发,我们设计了一个无锚头网络,它包含一个分类分支,将目标从背景中分类,以及一个无锚回归分支,直接估计目标边界盒。
具体来说,首先,我们使用轻量级分类卷积网络 $\omega_{cls} $对 y y y 进行编码,以整合 f q f^q fq 和从 f m f^m fm 检索到的信息以适应分类任务。然后,使用具有 1 × 1 核的线性卷积层将 ω c l s \omega_{cls} ωcls 的输出的维数降低到 1,产生最终的分类响应 R c l s ∈ R 1 × H × W R^{cls}\in\mathbb{R}^{1\times H\times W} Rcls∈R1×H×W。
此外,我们观察到目标边界附近的正样本倾向于预测低质量的目标边界框。因此,在 ω c l s \omega_{cls} ωcls 之后进行子分支以生成中心响应图 R c t r ∈ R 1 × H × W R_{ctr} \in \mathbb{R}^{1×H×W} Rctr∈R1×H×W,如图 2 的右侧所示。在推理过程中, R c l s R_{cls} Rcls乘以 R c t r R{ctr} Rctr来抑制远离目标中心的像素的分类置信度分数。
在回归分支中,我们将 y y y 传递给另一个轻量级回归卷积网络 ω r e g \omega_{reg} ωreg,然后将输出特征的维数降低到 4 4 4,以生成用于目标边界框估计的回归响应图 R r e g ∈ R 4 × H × W R_{reg} \in \mathbb{R}^{4×H×W} Rreg∈R4×H×W。