了解周围环境:利用场景信息进行对象跟踪
了解周围环境:利用场景信息进行对象跟踪
作者:Goutam Bhat Martin Danelljan Luc Van Gool Radu Timofte
摘要
- 目前最先进的跟踪器只依赖于目标映射模型来定位每帧中的对象。然而,在例如快速外观变化或存在干扰物的情况下,这种方法很容易失败,其中目标外观模型本身不足以进行稳健跟踪。在这种情况下,了解周围场景中其他物体的存在和位置是非常有益的。该场景信息可以通过序列进行传播,并用于例如明确避免管理对象和消除目标候选区域。
- 在这项工作中,我们提出了一种新的跟踪架构,可以利用场景信息进行跟踪。我们的跟踪器将这些信息表示为密集的局部状态向量,例如,如果局部区域是目标、背景或干扰物,则可以对其进行编码。这些状态向量在序列中传播,并与外观模型输出相结合以定位目标。我们的网络通过直接最大化视频片段的跟踪性能来有效地利用场景信息。所提出的方法在3个跟踪基准上设置了新的最先进的技术,在最近的GOT-10k数据集上实现了63.6%的AO得分。
1. 介绍
通用目标跟踪是计算机视觉的基本问题之一,有着广泛的应用。任务是估计视频序列每帧中目标对象的状态,只考虑其初始外观。大多数当前的方法[3,8,31,34,25,16,37]通过在初始帧中学习目标的外观模型来解决这个问题。然后在随后的帧中应用该模型,通过区分目标的外观和周围背景来定位目标。虽然实现了令人印象深刻的跟踪性能[29,23],但这些方法只依赖于外观模型,不利用场景中包含的任何其他信息。
相比之下,人类在追踪物体时会利用更丰富的线索。我们对场景有一个整体的看法,不仅要考虑目标对象,还要持续了解场景中的其他对象。当定位目标时,例如在有干扰物的杂乱场景中,或者当目标经历快速的外观变化时,提示是有帮助的。考虑图1中的示例,
- 图一: 当前的方法(顶部)仅使用外观模型来跟踪目标对象。然而,这样的策略在上面的例子中失败了。在这里,偏转器对象的存在使得仅仅基于外观来正确定位目标几乎是不可能的,即使使用先前的帧来连续更新外观模型也是如此。相反,我们的方法(底部)也注意到场景中的其他对象。该场景信息通过计算连续帧之间的腺嘌呤对应关系(红色箭头)在序列中传播。传播的场景知识极大地简化了目标定位问题,使我们能够可靠地跟踪目标。
仅给定初始目标外观,由于干扰物的存在,很难可靠地定位目标。然而,如果我们也利用先前的框架,我们可以很容易地检测到干扰物的存在。然后可以将这些知识传播到下一帧,以便可靠地定位目标。虽然现有方法使用先前跟踪的帧更新外观模型,但这种策略本身无法捕捉场景中其他对象的位置和特征。
在这项工作中,我们的目标是超越传统的基于逐帧检测的跟踪。我们提出了一种新的跟踪架构,可以通过序列传播有价值的场景信息。该信息用于在每一帧中实现改进的场景感知目标预测。使用密集的局部状态向量集来表示形成中的场景。这些编码关于局部区域的有价值的信息,例如该区域是否对应于目标、背景或干扰物。当区域在序列中移动时,我们通过利用帧之间的密集响应图来传播相应的状态向量。因此,我们的跟踪器“意识到”场景中的每个对象,并可以使用这些信息来避免干扰对象。该场景知识与目标外观模型一起用于预测每帧中的目标状态。然后使用递归神经网络模块更新由状态表示捕获的场景信息。
- 贡献: 我们的主要贡献总结如下。(i) 我们提出了一种新的跟踪架构,该架构利用了丰富的场景信息,表示为密集的局部状态向量。(ii)引入传播模块以通过预测软对应将状态映射到后续帧。(iii)我们开发了一个预测器模块,该模块有效地将目标外观模型的输出与传播的场景信息相结合,以便确定目标位置。(iv)通过集成递归神经网络模块,用新信息更新状态。(v) 我们训练我们的网络,以直接最大限度地提高完整视频片段的跟踪性能。
我们在5个具有挑战性的基准上进行了全面的实验:VOT-2018[29]、GOT-10k[23]、TrackingNet[36]、OTB-100[45]和NFS[14]。我们的方法在所有五个数据集上都取得了最先进的结果。在challengGOT-10k数据集上,我们的跟踪器获得了63.6%的平均重叠(AO)分数,比以前的最佳方法高出2.5%。。我们还提供了一个消融研究,分析了我们跟踪架构中关键组件的影响。
2. 相关工作
大多数跟踪方法通过学习第一帧中目标的外观模型来解决这个问题。学习目标外观模型的一种流行方法是判别相关滤波器(DCF)[5,21,10,9,26,33]。这些方法利用卷积定理,使用输入图像的循环移位作为训练数据,在傅立叶域中有效地训练分类器。另一种方法是在第一帧中训练或微调深度神经网络的几层,以执行目标背景分类[37,8,3,40]。MD-Net[37]在线微调三个完全连接的层,而DiMP[3]使用元学习公式来预测分类层的权重。近年来,孪生网络受到了极大的关注[2,32,31,44,18]。这些方法通过学习相似性度量来解决跟踪问题,然后使用相似性度量定位目标。
上面讨论的判别方法利用场景中形成的背景来学习目标外观模型。此外,已经进行了大量尝试,将背景信息集成到孪生跟踪器的外观模型中[52,30,51]。但是,在许多情况下,管理器对象与以前的目标外观无法区分。因此,在这种情况下,单个目标模型不足以实现鲁棒跟踪。此外,在快速运动的情况下,很难使目标模型快速适应新的干扰物。与这些工作相反,我们的方法明确地对不同图像区域的局部信息进行编码,并通过密集匹配在序列中传播这些信息。与我们的工作更相关的是,[46]旨在利用场景中干扰物的位置。然而,它使用手工制定的规则在每帧中将图像区域独立地分类为背景候选和目标候选,并使用线性运动模型来获得最终预测。相反,我们提出了一种完全可学习的解决方案,其中通过帧之间基于外观的密集跟踪来学习和传播图像区域的编码。此外,我们的最终预测是结合显式背景表示和外观模型输出获得的。
除了外观线索外,一些方法还研究了光流信息用于跟踪的用途。Gladh等人[17]在构建目标模型时,利用从光流图像中提取的深度运动特征来补充外观特征。朱等人[53]使用光流来扭曲将先前帧的特征映射到参考帧,并对其进行聚合,以学习目标外观模型。然而,这两种方法都利用光流来提高目标模型的鲁棒性。相反,我们明确地使用密集的运动信息来传播关于背景对象和结构的信息,以补充目标模型。
一些工作还研究了使用递归神经网络(RNN)进行目标跟踪。Gan等人[15]使用RNN使用图像特征和先前的目标位置直接回归目标位置。Ning等人[38]利用YOLO[39]检测器生成初始对象建议。这些建议与图像特征一起通过LSTM[22]来获得目标框。Yang等人[49,50]使用LSTM来更新目标模型,以说明通过序列的目标外观的变化。
3.建议的方法
我们开发了一种新的跟踪架构,能够利用场景信息来提高跟踪性能。虽然目前最先进的方法[8,3,31]只依赖于目标外观模型来独立处理每一帧,但我们的方法也传播了关于前一帧场景的信息。这提供了关于环境的丰富线索,例如干扰物对象的位置,这大大有助于目标的定位。
图2中提供了我们的跟踪体系结构的可视化概述。我们的跟踪器在内部跟踪场景中的所有区域,并传播有关它们的任何信息,以帮助定位目标。这是通过为目标邻域中的每个区域保持一个状态向量来实现的。例如,状态向量可以编码特定的补丁是否对应于目标、背景或可能欺骗目标外观模型的干扰物。当对象在序列中移动时,通过估计连续帧之间的密集对应关系来相应地传播状态向量。然后将传播的状态向量与目标外观模型融合,以便预测用于定位的最终目标置信度值。最后,预测和目标模型的输出用于使用卷积门控递归单元(ConvGRU)[1]更新状态向量。
3.1 使用场景传播进行跟踪
我们的跟踪器预测基于两个线索:(i)当前帧中的外观和(ii)随时间传播的场景信息。外观模型 τ τ τ旨在区分目标物体和背景。通过将从帧 t t t中提取的深度特征映射 x t ∈ R W × H × D x_t ∈ R^{W×H×D} xt∈RW×H×D作为输入,外观模型 τ τ τ预测了一个得分映射$s_t=τ(x_t)∈R^{w×H} 这里,在每个空间位置 这里,在每个空间位置 这里,在每个空间位置r∈Ω :={0,…,W−1}×{0,…,H−1}$上的得分 s t ( r ) \ s_t(r) st(r) 这里,在每个空间位置r∈Ω := {0,…,W−1}×{0,…,H−1}表示该位置成为目标中心的可能性。
- 图二: 我们的跟踪架构概述。除了使用目标出现模型τ,我们的跟踪器还利用传播的场景信息来跟踪目标。关于每个图像区域的信息被编码在本地化状态h中。给定前一帧的状态$ h_{t−1} , 传播模块 ,传播模块 ,传播模块Π 将前一帧中的这些状态映射到当前帧位置。这些传播状态 将前一帧中的这些状态映射到当前帧位置。这些传播状态 将前一帧中的这些状态映射到当前帧位置。这些传播状态 \hat h_{t−1} ,以及预测器 ,以及预测器 ,以及预测器P 用于输出最终目标置信度得分 用于输出最终目标置信度得分 用于输出最终目标置信度得分 ςt 的传播可靠性 的传播可靠性 的传播可靠性 ξt 和外观模型得分 和外观模型得分 和外观模型得分 s_t 。状态更新模块 。状态更新模块 。状态更新模块Φ 然后使用当前帧预测来提供新的状态 然后使用当前帧预测来提供新的状态 然后使用当前帧预测来提供新的状态h_t$。
目标模型具有从遮挡中恢复的能力,并提供长期鲁棒性。然而,周围场景内容是遗漏的。为了提取这些信息,我们的跟踪器为目标邻域中的每个区域维护一个状态向量。具体地说,对于每个空间位置 r ∈ Ω r∈Ω r∈Ω在深度特征表示 x t x_t xt中,我们为该单元位置保持一个 S − S- S−维状态向量 h r h^r hr,使得 h ∈ R W × h × S h∈R^{W×h×S} h∈RW×h×S。状态向量包含关于小区的信息,这有利于单目标跟踪。例如,它可以编码特定细胞是否与目标、背景相对应,或者实际上是一个看起来与目标相似的干扰物。注意,我们没有明确地强制执行任何这样的编码,但让 h h h是一个通用表示,其编码是通过最小化跟踪损失来端到端训练的。
使用以第一帧目标注释
B
0
B_0
B0为输入的小网络
γ
γ
γ在第一帧中初始化状态向量。网络生成一个指定目标位置的单通道标签映射。这通过两个卷积层来获得初始状态向量
h
0
=
γ
(
b
0
)
h_0=γ(b_0)
h0=γ(b0)。这些状态矢量包含特定于它们对应的成像区域的局部信息。因此,当对象在序列中移动时,我们相应地传播它们的状态向量。给定一个新的帧
t
t
t,我们将状态
h
t
−
1
h_{t−1}
ht−1从以前的帧位置变换到当前的帧位置。这是由我们的状态传播模块
Π
Π
Π执行的,
(
h
^
t
−
1
,
ξ
t
)
=
Π
(
x
t
,
x
t
−
1
,
h
t
−
1
)
(1)
(\hat h_{t−1} ,ξ_t ) = Π(x_t ,x_{t−1} ,h_{t−1})\tag{1}
(h^t−1,ξt)=Π(xt,xt−1,ht−1)(1)
这里,
x
t
∈
R
W
×
H
×
D
x_t∈R^{W×H×D}
xt∈RW×H×D和
x
t
−
1
∈
R
W
×
H
×
D
x_{t−1}∈R^{W×H×D}
xt−1∈RW×H×D分别是来自当前帧和先前帧的深层特征表示。输出
h
^
t
−
1
\hat h_{t−1}
h^t−1表示空间传播状态,补偿对象的运动和场景中的背景。传播可靠性映射
ξ
t
∈
R
W
×
H
ξ_t∈R^{W×H}
ξt∈RW×H表示状态传播的可靠性。也就是说,高
ξ
t
(
r
)
ξ_t(r)
ξt(r)表明
r
r
r处的状态
h
^
t
−
1
r
\hat h^r_{t−1}
h^t−1r已经可靠地传播。可靠性图
ξ
t
ξ_t
ξt可以用于确定在定位目标时是否信任传播的状态向量
h
^
t
−
1
r
\hat h^r_{t−1}
h^t−1r。
为了预测目标对象的位置,我们利用了外观模型输出
s
t
s_t
st和传播的状态
h
^
t
−
1
\hat h_{t−1}
h^t−1。后者包含了关于场景中所有对象的有价值的信息,这补充了外观模型中包含的以目标为中心的信息。我们向预测器模块
P
P
P输入预测的状态向量
h
^
t
−
1
\hat h_{t−1}
h^t−1,以及可靠性得分
ξ
t
ξ_t
ξt和概率模型预测
s
t
s_t
st。预测器结合这些信息来提供融合的目标置信度得分
ς
t
ς_t
ςt,
ς
t
=
P
(
h
^
t
−
1
,
ξ
t
,
s
t
)
(2)
ς_ t = P( \hat h_{t−1} ,ξ_ t ,s_t)\tag{2}
ςt=P(h^t−1,ξt,st)(2)
然后,通过选择得分最高的位置
r
∗
r*
r∗将目标定位在帧
t
t
t中:
r
∗
=
a
r
g
m
a
x
r
∈
Ω
ς
t
r*=arg max_{r∈Ω} ς_t
r∗=argmaxr∈Ωςt。最后,我们使用融合的置信度得分
ς
t
ς_t
ςt和外观模型输出
s
t
s_t
st来更新状态向量,
h
t
=
Φ
(
h
^
t
−
1
,
ς
t
,
s
t
)
(3)
h_ t = Φ( \hat h_{t−1} ,ς_t ,s_t ) \tag{3}
ht=Φ(h^t−1,ςt,st)(3)
循环状态更新模块
Φ
Φ
Φ可以使用来自分数图的当前帧信息,例如重置不正确的状态向量
h
^
t
−
1
r
\hat h^r_{t−1}
h^t−1r,或者将新进入的对象标记为干扰物。这些更新的状态向量
h
t
h_t
ht然后被用于跟踪下一帧中的对象。我们的跟踪程序在
A
l
g
.
1
Alg. 1
Alg.1中有详细说明。
- 算法1 跟踪环路
- 输入: 图像特征 { x t } t N = 0 {x_t}^N_t=0 {xt}tN=0,初始标注 b 0 b_0 b0,外观模型 τ τ τ
- 1: h 0 ← γ ( b 0 ) h_0← \gamma(b_0) h0←γ(b0) #初始化状态
- 2:for i=1,…,N do #对于每帧
- 3: s t ← τ ( x t ) s_t← τ(x_t) st←τ(xt) #应用外观模型
- 4: ( h ^ t − 1 , ξ t ) ← Π ( x t , x t − 1 , h t − 1 ) (\hat h_{t−1},ξ_t)←Π(x_t,x_{t−1},h_{t−1}) (h^t−1,ξt)←Π(xt,xt−1,ht−1) #传播状态
- 5: ς t ← P ( h ^ t − 1 , ξ t , s t ) ς_t← P(\hat h_{t−1},ξ_t,s_t) ςt←P(h^t−1,ξt,st) #预测目标置信度得分
- 6: h t ← Φ ( h ^ t − 1 , ς t , s t ) h_t← Φ(\hat h_{t−1},ς_t,s_t) ht←Φ(h^t−1,ςt,st) #更新状态
3.2 状态传播
状态向量包含目标邻域中每个区域的局部信息。当这些区域由于例如物体或相机运动而在序列中移动时,我们需要相应地传播它们的状态,以补偿它们的运动。这是由我们的状态传播模块 π π π完成的。该模块的输入是分别从先前帧和当前帧提取的深度特征图 x t − 1 x_{t−1} xt−1和 x t x_t xt。请注意,深度特征 x x x不需要与用于目标模型的特征相同。然而,我们假设两个特征图具有相同的空间分辨率 W × H W×H W×H。
为了将状态从前一帧传播到当前帧位置,我们首先计算两个帧之间的密集对应关系。我们将这种对应关系表示为概率分布 p p p,其中 p ( r ′ ∣ r ) p(r'|r) p(r′∣r)是从前一帧的位置 r ′ ∈ r r'∈r r′∈r到当前帧位置 r ∈ Ω r∈ Ω r∈Ω的概率。密集对应关系是通过构造 4 D 4D 4D成本体矩阵 C V ∈ R W × H × W × H CV∈R^{W×H×W×H} CV∈RW×H×W×H来估计的,这在光流方法中是常见的[12,42,47]。成本矩阵包含前一帧和当前帧的每个图像位置对之间的匹配成本。成本矩阵中的元素 C V ( r ′ , r ) CV(r',r) CV(r′,r)是通过计算以 r ′ r' r′为中心的 3 × 3 3×3 3×3窗口之间的相关性来获得的前一帧中的特征 x t − 1 x_{t−1} xt−1和当前帧中的 r r r特征 x t x_t xt。为了提高计算效率,我们通过假设每个特征单元的最大位移 d m a x d_max dmax来构造部分成本体积。
我们通过网络模块处理成本矩阵,以获得稳健的对应关系。我们将前一帧每一个单元 r ′ r' r′成本矩阵 C V r ′ ( r ) ∈ R W × H CV_{r'}(r)∈R^{W×H} CVr′(r)∈RW×H的切片通过两个卷积块得到处理后的匹配代价 φ ( r ′ , r ) φ(r',r) φ(r′,r)。接下来,我们取当前帧位置上该输出的softmax,以获得初始对应关系 φ ′ ( r ′ , r ) = e x p ( φ ( r ′ , r ) ) ∑ r ′ ′ ∈ Ω e x p ( φ ( r ′ , r ′ ′ ) ) φ ' (r ' ,r) ={ exp ( φ(r ' ,r) )\over \sum r '' ∈Ω exp(φ(r ' ,r '' ))} φ′(r′,r)=∑r′′∈Ωexp(φ(r′,r′′))exp(φ(r′,r))。softmax操作聚合当前帧维度上的信息,并提供两个帧之间的位置的软关联。为了整合先前帧位置的信息,我们将 φ ′ φ' φ′通过另外两个卷积块并且在先前帧位置上取softmax。这在每个当前帧位置 r r r处提供了所需的概率分布 p ( r ′ ∣ r ) p(r'|r) p(r′∣r)。
估计的帧之间对应关系
p
(
r
′
∣
r
)
p(r'|r)
p(r′∣r)可以通过评估前一帧的状态向量的的期望来估计在当前帧位置
r
r
r处的传播状态向量
h
^
t
−
1
r
\hat h^r_{t−1}
h^t−1r。
h
^
t
−
1
r
=
∑
r
′
∈
Ω
h
^
t
−
1
r
′
p
(
r
′
∣
r
)
(4)
\hat h^{r}_{t-1}=\sum _{r'∈Ω } \hat h^{r'}_{t-1}p(r'|r)\tag{4}
h^t−1r=r′∈Ω∑h^t−1r′p(r′∣r)(4)
当使用传播的状态向量
h
t
−
1
r
h^{r}_{t-1}
ht−1r进行目标定位时,了解特定状态向量是否有效也很有帮助,即它是否已从前一帧正确传播。我们可以使用该位置的对应概率分布
p
(
r
′
∣
r
)
p(r '|r)
p(r′∣r)来估计每个位置
r
r
r的可靠性
ξ
t
r
ξ^r_t
ξtr。
p
(
r
′
∣
r
)
p(r '|r)
p(r′∣r)中的单一模式表明我们对前一帧中位置
r
r
r的来源有信心。另一方面,均匀分布的
p
(
r
′
∣
r
)
p(r '|r)
p(r′∣r)意味着不确定性。在这种情况下,期望
4
\boxed {4}
4减少为先前帧状态向量
h
t
−
1
r
′
h^{r'}_{t-1}
ht−1r′的简单平均值,导致一个不可靠的
h
t
−
1
r
h^{r}_{t-1}
ht−1r。因此,我们使用分布
p
(
r
′
∣
r
)
p(r '|r)
p(r′∣r)的香农熵的相反数来获得
h
t
−
1
r
h^{r}_{t-1}
ht−1r状态的可靠性得分
ξ
t
r
ξ^r_t
ξtr。
ξ
t
r
=
∑
r
′
∈
Ω
p
(
r
′
∣
r
)
log
(
p
(
r
′
∣
r
)
)
(5)
ξ^r_t=\sum _{r'∈Ω}p(r '|r)\log(p(r'|r)) \tag{5}
ξtr=r′∈Ω∑p(r′∣r)log(p(r′∣r))(5)
然后,在预测最终目标置信度得分时,使用可靠性
ξ
t
r
ξ^r_t
ξtr来确定是否信任状态
h
^
t
−
1
r
\hat h^{r}_{t-1}
h^t−1r。
3.3 目标置信度得分预测
在本节中,我们将描述我们的预测器模块 P P P,它确定当前帧中的目标位置。为了定位目标,我们利用外观模型输出 s t s_t st和由 h ^ t − 1 \hat h_{t-1} h^t−1编码的场景信息。外观模型得分 s t r s^r_t str仅基于当前帧中的外观来指示位置 r r r是目标还是背景。另一方面,状态向量 h ^ t − 1 r \hat h^r_{t−1} h^t−1r包含每个位置 r r r的过去信息。例如,它可以编码细胞 r r r在前一帧中是否被分类为目标或背景,跟踪器对该位置的预测有多确定,等等。相应的可靠性得分 ξ t r ξ^r_t ξtr进一步指示状态向量 h ^ t − 1 r \hat h^r_{t−1} h^t−1r是否可靠。这可以用于确定在确定目标位置时给予状态向量信息多少权重。
预测器模块 P P P被训练为有效地组合来自 s t s_t st、 h ^ t − 1 \hat h_{t−1} h^t−1和 ξ t ξ_t ξt的信息,以输出最终目标置信度得分 ς t ∈ R W × H ς_t∈R^{W×H} ςt∈RW×H。我们将在通道维将外观模型输出 s t s_t st、状态传输向量 h ^ t − 1 \hat h_{t−1} h^t−1和状态置信度得分 ξ t ξ_t ξt组合,将得到的向量通过两个卷积模块。将输出穿过一个sigmod形层来将其映射到范围 [ 0 , 1 ] [0,1] [0,1],以获得中间分数 ς ^ t \hat ς_t ς^t。虽然可以直接使用该评分,但在目标遮挡中并不可靠。这是因为与目标相对应的状态向量可能会泄漏到遮挡对象中,尤其是当两个对象缓慢交叉时。因此,在这种情况下,融合的分数可能被破坏。为了处理这一问题,我们通过另一层来屏蔽得分图中的区域,其中外观模型得分 s t s_t st小于阈值 µ µ µ。因此,在遮挡的情况下,我们让外观模型覆盖预测输出。最终的得分图 ς t ς_t ςt由此获得为 ς t = ς t ^ ⋅ Π s t > µ ς_t=\hat {ς^t}·Π_{s_t>µ} ςt=ςt^⋅Πst>µ。这里, Π s t > µ Π_{s_t>µ} Πst>µ是一个指标函数,当 Π s t > μ Π_{s_t>μ} Πst>μ时,它的求值结果为1,否则为0,并且 ⋅ · ⋅表示元素乘积。请注意,屏蔽操作是可微分的,并且在网络内部实现。
3.4 状态更新
虽然第 3.2 \boxed {3.2} 3.2节中描述的状态传播将状态映射到新帧,但它不会使用有关场景的新信息对其进行更新。这通过一个递归神经网络模块来实现,该模块在每个时间步长内进化状态。作为关于场景的跟踪信息,我们分别输入从外观模型 τ τ τ和预测模块 P P P获得的分数 s t s_t st和 ς t ς_t ςt。因此,更新模块可以例如标记进入场景的新干扰物对象或者校正已经被错误传播的损坏状态。该状态更新由循环模块 Φ Φ Φ(等式 3 \boxed {3} 3)执行。
更新模块 Φ Φ Φ包含卷积门控递归单元 ( C o n − v G R U ) (Con-vGRU) (Con−vGRU) [ 1 , 6 ] [1,6] [1,6]。我们将分数 ς t ς_t ςt和 s t s_t st及其最大值连接起来,以获得 C o n v G R U ConvGRU ConvGRU的输入 f t ∈ R W × H × 4 f_t∈R^{W×H×4} ft∈RW×H×4。来自前一帧的传播状态为上一时间步长的 C o n v G R U 的 ConvGRU的 ConvGRU的隐藏状态。 C o n v G R U ConvGRU ConvGRU随后更新先前的状态使用当前帧观测 f t f_t ft来提供新的状态 h t h_t ht。我们的跟踪器使用的表示的可视化如图 3 \boxed {3} 3所示。
—
- 图3 用于跟踪两个示例序列的中间表示的可视化。前一帧(第一列)中的绿色框表示要跟踪的目标。对于当前帧(第三列)中的每个位置,我们绘制与前一帧(第二列)中标记区域的估计对应关系。使用估计的对应关系传播到当前帧的状态按通道绘制在第四列中。由于干扰物的存在,外观模型评分(第五列)在这两种情况下都未能正确定位目标。相反,我们的方法可以正确地处理这些具有挑战性的场景,并通过利用传播的场景信息来提供稳健的目标置信度分数(最后一列)。
3.5 目标外观模型
我们的方法可以与任何跟踪外观模型集成。在这项工作中,我们使用
D
i
M
P
DiMP
DiMP跟踪器[3]作为我们的目标模型组件,因为它具有强大的性能。
D
i
M
P
DiMP
DiMP是一种端到端可训练的跟踪架构,它预测由单个进化层的权重
w
w
w参数化的外观模型
τ
w
τ_w
τw。该网络集成了优化模块,该优化模块将以下辨别性学习损失最小化,
L
(
w
)
=
∑
(
x
,
c
)
∈
S
t
r
a
i
n
∣
∣
r
(
τ
w
(
x
)
,
c
)
∣
∣
2
+
∣
∣
λ
w
∣
∣
2
∣
S
t
r
a
i
n
∣
(6)
L(w)={\sum _{(x,c)∈S_{train}||r(τ_w(x),c)||^2+||λw||^2} \over {|S_{train}|} } \tag{6}
L(w)=∣Strain∣∑(x,c)∈Strain∣∣r(τw(x),c)∣∣2+∣∣λw∣∣2(6)
这里,
λ
λ
λ是正则化参数。训练集
S
t
r
a
i
n
=
(
x
j
,
c
j
)
j
n
=
1
S_{train}={(x_j,c_j)}^n_j=1
Strain=(xj,cj)jn=1从训练图像中提取的深度特征图
x
j
x_j
xj和相应的目标注释
c
j
c_j
cj的列表。残差函数
r
(
s
,
c
)
r(s,c)
r(s,c)计算跟踪器预测
s
=
τ
w
(
x
)
s=τ_w(x)
s=τw(x)和地面实况之间的误差。训练集是通过采用不同的数据扩充策略在初始帧中构建的。有关
D
i
M
P
DiMP
DiMP跟踪器的更多详细信息,请参阅[3]。
3.6 离线训练
为了训练我们的体系结构,模拟跟踪场景是很重要的。这是确保网络能够有效学习传递场景信息随时间的变化,并确定如何将其与外观模型输出最佳融合。因此,我们使用视频序列来训练我们的网络。我们首先从视频中采样一组 N t r a i n N_{train} Ntrain帧,用于构建外观模型 τ τ τ。然后,我们对一个子序列 V = ( I t , b t ) t = 0 N s e q − 1 V={{(I_t,b_t)}}^{N_{seq}−1}_ {t=0} V=(It,bt)t=0Nseq−1进行采样,该子序列包含 N s e q N_{seq} Nseq个连续帧 I t I_t It及其相应的目标注释 b t b_t bt。我们将我们的网络应用于这个序列数据,就像在跟踪过程中一样。我们首先使用状态初始化器获得初始状态 h 0 = ( b 0 ) h_0=(b_0) h0=(b0)。然后将状态传播到下一帧(第 3.2 \boxed{3.2} 3.2节),用于预测目标分数 ς t ς_t ςt(第 3.3 \boxed{3.3} 3.3节),最后使用预测分数进行更新(第 3.4 \boxed{3.4} 3.4节)。重复该过程,直到序列结束,并且通过评估整个序列上的跟踪器性能来计算训练损失。
为了获得跟踪损失
L
L
L,我们首先使用标准最小二乘损失计算每个帧
t
t
t的预测误差
L
t
p
r
e
d
L^{pred}_t
Ltpred,
L
t
p
r
e
d
=
∣
∣
ς
t
−
z
t
∣
∣
2
(7)
L^{pred}_t=||ς_t-z_t||^2 \tag{7}
Ltpred=∣∣ςt−zt∣∣2(7)
这里,
z
t
z_t
zt是一个标签函数,我们将其设置为以目标为中心的高斯函数。我们还计算了预测误差
L
t
p
r
e
d
L^{pred}_t
Ltpred,绘制了
P
P
P预测的原始分数图,以获得额外的训练监督。为了帮助学习状态向量和传播模块π,我们添加了一个额外的辅助任务。我们使用一个小的网络头来预测状态向量
h
t
−
1
r
h^r_{t−1}
ht−1r是否与目标或背景相对应。使用二进制交叉入口损失来惩罚该预测以获得
L
t
s
t
a
t
e
L^{state}_t
Ltstate。网络头也被应用于传播的状态向量
h
^
t
−
1
r
\hat h^r_{t−1}
h^t−1r,以获得
L
t
s
t
a
t
e
,
p
r
o
p
L^{state,prop}_t
Ltstate,prop。这种损耗为传播模块
Π
Π
Π提供了一个直接的监控信号。
我们的最终跟踪损失
L
L
L是作为整个序列上的上述单独损失的加权和获得的,
L
=
∑
t
=
1
N
s
e
q
−
1
L
t
p
r
e
d
+
α
L
t
p
r
e
d
,
r
a
w
+
β
(
L
t
s
t
a
t
e
+
L
t
s
t
a
t
e
,
p
r
o
p
)
N
s
e
q
−
1
(8)
L={\sum^{N_{{seq}-1}}_{t=1}L^{pred}_t+\alpha L^{pred,raw}_t+\beta (L^{state}_t+L^{state,prop}_t) \over N_{{seq}-1}} \tag{8}
L=Nseq−1∑t=1Nseq−1Ltpred+αLtpred,raw+β(Ltstate+Ltstate,prop)(8)
超参数
α
\alpha
α和
β
\beta
β决定了不同损失的影响。注意,在大多数情况下,由外观模型预测的分数
s
t
s_t
st本身可以正确定位目标。因此,存在预测模块只学习依赖目标模型得分
s
t
s_t
st的风险。为了避免这种情况,我们在训练过程中随机将干扰物峰值添加到得分
s
t
s_t
st中,以鼓励预测器利用由状态向量编码的场景信息。
3.7 实施细节
我们使用预先训练的 D i M P DiMP DiMP模型,该模型具有来自[7]的目标外观模型的 R e s N e t − 50 ResNet-50 ResNet−50[19]主干。我们使用来自同一骨干网络的块 4 4 4特征作为状态传播模块 Π Π Π的输入。为了提高计算效率,我们的跟踪器不处理完整的输入图像。相反,我们裁剪一个包含目标的正方形区域,面积是目标面积的 5 2 5^2 52倍。裁剪后的搜索区域大小调整为 288 × 288 288×288 288×288,并传递给网络。我们使用 S = 8 S=8 S=8维的状态向量来对场景信息进行编码。预测器 P P P中的阈值 µ µ µ设置为 0.05 0.05 0.05。
我们使用 T r a c k i n g N e t TrackingNet TrackingNet[36]、 L a S O T LaSOT LaSOT[13]和 G O T − 10 k GOT-10k GOT−10k[23]数据集的子集来训练我们的网络。在一个序列中,我们在每一帧中扰动目标的位置和比例,以避免学习任何运动偏差。虽然我们的网络是端到端可训练的,但由于 G P U GPU GPU内存限制,我们不会微调骨干网络的权重。我们的网络被训练了 40 40 40个周期,每个周期有 1500 1500 1500个子序列。我们使用 A D A M ADAM ADAM[27]优化器,初始学习率为 1 0 − 2 10^{-2} 10−2,每 20 20 20个周期减少 5 5 5倍。我们使用 N t r a i n = 3 N_{train}=3 Ntrain=3帧来构建外观模型,同时子序列长度被设置为 N s e q = 50 N_{seq}=50 Nseq=50。损失权重设置为 α = β = 0.1 α=β=0.1 α=β=0.1。
在在线跟踪过程中,我们使用一个简单的启发式方法来确定目标损失。如果融合的置信度得分 ς t ς_t ςt峰值小于阈值 ( 0.05 ) (0.05) (0.05),我们推断目标丢失,并且在这种情况下不更新状态向量。我们通过在输入到 P P P的外观模型预测 s t s_t st上应用窗口函数,以及输出目标置信度得分 ς t ς_t ςt,对目标运动施加先验。我们还处理目标置信度分数中可能出现的任何漂移。在外观模型得分 s t s_t st和目标置信度得分 ς t ς_t ςt的峰值只有很小的偏移的情况下,我们使用外观模型得分来确定目标位置,因为它更耐漂移。在确定目标位置后,我们使用 D i M P DiMP DiMP中的边界框估计分支来获得目标框。
4 实验
我们在五个跟踪基准上评估了我们提出的跟踪架构: V O T 2018 VOT2018 VOT2018[29]、 G O T − 10 k GOT-10k GOT−10k[23]、 T r a c k i n g N e t TrackingNet TrackingNet[36]、 O T B − 100 OTB-100 OTB−100[45]和 N F S NFS NFS[14]。补充材料中提供了详细结果。我们的跟踪器在一个 N v i d i a R T X 2080 G P U Nvidia RTX 2080 GPU NvidiaRTX2080GPU上以大约 20 F P S 20 FPS 20FPS的速度运行。完整的训练和推理代码将在发布后发布。
4.1消融研究
我们进行了一项消融研究,以分析每个组件对我们的跟踪架构的影响。我们在由 200 200 200个具有挑战性的视频组成的 N F S NFS NFS[14]和 O T B − 100 OTB-100 OTB−100[45]组合数据集上进行了实验。跟踪器使用重叠精度( O P OP OP)度量进行评估。重叠精度 O P T OP_T OPT表示跟踪器预测和地面实况框之间的并集交集( I o U IoU IoU)重叠高于阈值 T T T的帧的百分比。对阈值 [ 0 , 1 ] [0,1] [0,1]范围内的 O P OP OP得分进行平均,以获得曲线下面积( A U C AUC AUC)得分。我们报告了每个跟踪器的 A U C AUC AUC和 O P 0.5 OP_{0.5} OP0.5分。由于我们的外观模型的随机性,所有结果都以 5 5 5次运行的平均值报告。除非另有说明,我们分别使用第 3.6 \boxed{3.6} 3.6节和第 3.7 \boxed{3.7} 3.7节中提到的相同训练程序和设置来训练本节中评估的所有跟踪器。
表一 我们的跟踪架构中的每个组件对组合的 N F S NFS NFS和 O T B − 100 OTB-100 OTB−100数据集的影响。与仅使用外观模型相比,我们整合场景知识的方法在 A U C AUC AUC得分方面有 1.3 1.3 1.3%的显著提高。
Ours | Only Appearance Model τ | No State Propagation Π | No Propagation Reliability ξt | No Appearance Modle τ | |
---|---|---|---|---|---|
AUC(%) | 66.4 | 65.1 | 64.9 | 66.1 | 49.2 |
OP(0.5) | 83.5 | 81.9 | 81.2 | 82.9 | 60.1 |
场景信息的影响: 为了研究整合场景信息对跟踪的影响,我们将我们的方法与仅使用目标外观模型τ的跟踪器进行了比较。此版本相当于标准 D i M P − 50 DiMP-50 DiMP−50[3]。结果如表 1 \boxed{1} 1所示。请注意,我们的外观模型本身就是一个最先进的跟踪器,在多个跟踪基准上获得了最佳的跟踪性能[3]。与仅使用外观模型相比,我们利用场景信息的方法在 A U C AUC AUC和 O P 0.5 OP_{0.5} OP0.5得分方面分别提高了 1.3 1.3 1.3%和 1.6 1.6 1.6%。这些结果清楚地表明,即使与强大的外观模型集成,场景知识也包含有利于跟踪性能的补充信息。
状态传播的影响: 在这里,我们分析了状态传播模块(第 3.2 \boxed{3.2} 3.2节)的影响,该模块通过生成密集的对应关系来映射帧之间的局部状态。这是通过将( 1 \boxed{1} 1)和( 4 \boxed{4} 4)中的传播模块 Π Π Π替换为恒等映射 h ^ t − 1 = h t − 1 \hat h_{t−1}=h_{t−1} h^t−1=ht−1来执行的。也就是说,不再通过计算帧之间的对应关系来明确跟踪状态。该实验的结果如表1所示。有趣的是,与仅使用外观模型的网络相比,没有状态传播的方法表现稍差( A U C AUC AUC为 0.2 0.2 0.2%)。这表明,为了利用本地化的场景信息,帧之间的状态传播是至关重要的。
传播可靠性的影响: 在这里,我们研究了传播可靠性得分 ξ t ξ_t ξt对置信度得分预测的影响。我们将我们的方法与不使用 ξ t ξ_t ξt的基线跟踪器进行了比较。结果表明,使用可靠性评分 ξ t ξ_t ξt是有益的,导致 A U C AUC AUC提高 a + 0.3 a+0.3 a+0.3%。
外观模型的影响: 我们的架构利用传播的场景信息来补充由目标外观模型执行的逐帧预测。根据设计,我们的跟踪器依赖于外观模型来在例如遮挡的情况下提供长期的鲁棒性,因此不适合在没有外观模型的情况下使用。然而,为了完整性,我们评估了一个不使用任何外观模型的跟踪器版本。也就是说,为了跟踪目标,我们只使用预测状态 h ^ t − 1 \hat h_{t−1} h^t−1和可靠性得分 ξ t ξ_t ξt。正如预期的那样,不使用外观模型会使 A U C AUC AUC得分显著降低 17 17 17%以上。
4.2 最先进的比较
在本节中,我们在五个跟踪基准上将我们提出的跟踪器与最先进的方法进行了比较。
- 图四: G O T − 100 k ( a ) GOT-100k(a) GOT−100k(a)、 O T B − 100 ( b ) OTB-100(b) OTB−100(b)和 N F S ( c ) NFS(c) NFS(c)的成功图。 A U C AUC AUC得分如图例所示。我们的方法在 G O T − 10 k GOT-10k GOT−10k和 N F S NFS NFS数据集上都获得了最好的结果,分别比以前的最佳方法高出 2.5 2.5 2.5%和 1.6 1.6 1.6%的AUC。
VOT2018: [ 29 \boxed{29} 29]我们在由 60 60 60个视频组成的 V O T 2018 VOT2018 VOT2018数据集上评估了我们的方法。使用测量的稳健性和准确性对跟踪器进行比较。鲁棒性表示跟踪失败的次数,而准确度表示跟踪器预测和地面实况框之间的平均重叠。这两个指标被组合成一个单一的预期平均重叠( E A O EAO EAO)分数。我们将我们提出的跟踪器与最先进的方法进行了比较。结果如表 2 \boxed{2} 2所示。请注意, V O T 2018 VOT2018 VOT2018上所有排名靠前的方法都只使用目标外观模型进行跟踪。相比之下,我们的方法还利用了关于场景中其他对象的明确知识。在总体 E A O EAO EAO得分中,我们的方法以较大的优势优于之前的最佳方法 D i M P − 50 DiMP-50 DiMP−50,在 E A O EAO EAO中实现了 5.0 5.0 5.0%的相对增益。
GOT10k:[
23
\boxed{23}
23]这是最近推出的一个由超过
10000
10000
10000个视频组成的大规模数据集。与其他数据集相比,跟踪器被限制仅使用数据集的训练分割来训练网络,即禁止使用外部训练数据。因此,我们仅使用
t
r
a
i
n
s
p
l
i
t
trainsplit
trainsplit来训练我们的网络。我们确保我们的外观模型
τ
τ
τ也仅使用
t
r
a
i
n
s
p
l
i
t
trainsplit
trainsplit进行训练。结果报告了由
180
180
180个视频组成的测试分割。在重叠阈值
0.5
0.5
0.5和
0.75
0.75
0.75下,平均重叠(
A
O
AO
AO)和成功率的结果如表
3
3
3所示,而图
4
a
4a
4a显示了成功图。在以前的方法,我们的跟踪器使用的外观模型,名称为
D
i
M
P
−
50
DiMP-50
DiMP−50,获得了最好的结果。我们的方法集成了场景信息进行跟踪,显著优于
D
i
M
P
−
50
DiMP-50
DiMP−50,创造了一个新的最先进的数据集。比以前的最佳方法提高了
4.1
4.1
4.1%。这些结果清楚地表明了利用场景知识进行跟踪的好处。
表二 V O T 2018 VOT2018 VOT2018在预期平均重叠( E A O 4 )、准确性和稳健性方面的最新比较。我们的方法获得了最佳的 EAO4)、准确性和稳健性方面的最新比较。我们的方法获得了最佳的 EAO4)、准确性和稳健性方面的最新比较。我们的方法获得了最佳的EAO 分数,优于之前的最佳方法 分数,优于之前的最佳方法 分数,优于之前的最佳方法DiMP-50 , , ,EAO$相对增益为 5.0 5.0 5.0%。
DRT[41] | RCO[29] | UPTD[4] | DaSiam-RPN[52] | MTF[29] | LADCF[48] | ATOM[8] | SiamRPN++[31] | DiMP-50[3] | Ours | |
---|---|---|---|---|---|---|---|---|---|---|
EAO | 0.356 | 0.357/td> | 0.378 | 0.383 | 0.385 | 0.389 | 0.401 | 0.414 | 0.440 | 0.462 |
鲁棒性 | 0.201 | 0.155 | 0.184 | 0.276 | 0.140 | 0.159 | 0.204 | 0.234 | 0.153 | 0.143 |
精准度 | 0.519 | 0.507 | 0.536 | 0.586 | 0.505 | 0.503 | 0.590 | 0.600 | 0.597 | 0.609 |
表三 G O T − 10 k GOT-10k GOT−10k测试集在重叠阈值 0.5 0.5 0.5和 0.75 0.75 0.75的平均重叠( A O AO AO)和成功率( S R SR SR)方面的最新技术比较。我们的方法在所有三项指标中都获得了最好的结果, A O AO AO得分为 63.6 63.6 63.6。
MDNet[37] | CF2[35] | ECO[9] | CCOT[11] | GOTURN[20] | SiamFC[2] | SiamFCv2[43] | ATOM[8] | DiMP-50[3] | Ours | |
---|---|---|---|---|---|---|---|---|---|---|
SR(0.50)(%) | 30.3 | 29.7/td> | 30.9 | 32.8 | 37.5 | 35.3 | 40.4 | 63.4 | 71.7 | 75.1 |
SR(0.75)(%) | 9.9 | 8.8 | 11.1 | 10.7 | 12.4 | 9.8 | 14.4 | 40.2 | 49.2 | 51.5 |
AO(%) | 29.9 | 31.5 | 31.6 | 32.5 | 34.7 | 34.8 | 37.4 | 55.6 | 61.6 | 63.6 |
表四 T r a c k i n g N e t TrackingNet TrackingNet测试集在精度、标准化精度和成功率方面的最新比较。我们的方法与之前的最佳方法 D i M P − 50 DiMP-50 DiMP−50表现相似, A U C AUC AUC得分为 74.0 74.0 74.0%。
ECO[9] | SiamFC[2] | CFNet[43] | MDNet[37] | UPDT[4] | DaSiam-RPN[52] | ATOM[8] | SiamRPN++[31] | DiMP-50[3] | Ours | |
---|---|---|---|---|---|---|---|---|---|---|
精准(%) | 49.2 | 53.3/td> | 53.3 | 56.5 | 55.7 | 59.1 | 64.8 | 69.4 | 68.7 | 68.8 |
Norm.Prec.(%) | 61.8 | 66.6 | 64.5 | 70.5 | 70.2 | 73.3 | 77.1 | 80.0 | 80.1 | 80.0 |
成功 | 55.4 | 57.1 | 57.8 | 60.6 | 61.1 | 63.8 | 70.3 | 73.3 | 74.0 | 74.0 |
TrackingNet [ 36 \boxed{36} 36]:大规模 T r a c k i n g N e t TrackingNet TrackingNet数据集由从 Y o u T u b e YouTube YouTube上采样的 30000 30000 30000多个视频组成。我们报告了测试拆分的结果,包括 511 511 511个视频。精度、归一化精度和成功率的结果如表 4 \boxed{4} 4所示。基线方法 D i M P − 50 DiMP-50 DiMP−50已经获得了 A U C AUC AUC为 74.0 74.0 74.0的最佳结果。我们的方法实现了与基线类似的性能,表明它很好地适用于此类真实世界的视频。
OTB-100 [ 45 \boxed{45} 45]: 图 4 b \boxed{4b} 4b显示了所有 100 100 100个视频的成功情节。基于判别相关滤波器的 U P D T UPDT UPDT[ 4 \boxed{4} 4]跟踪器获得了最佳结果, A U C AUC AUC得分为 70.4 70.4 70.4。我们的方法获得了和现有技术相当的结果,同时在AUC方面优于基线 D i M P − 50 DiMP-50 DiMP−50超过 1 1 1%。
NFS [ 14 \boxed{14} 14]:对速度数据集的需求包括使用高帧速率( 240 F P S 240 FPS 240FPS)相机捕获的 100 100 100个具有挑战性的视频。我们在该数据集的 30 F P S 30FPS 30FPS下采样版本上评估了我们的方法。所有 100 100 100个视频的成功图如图 4 c \boxed{4c} 4c所示。在以前的方法中,我们的外观模型 D i M P − 50 DiMP-50 DiMP−50获得了最好的结果。我们的方法显著优于 D i M P − 50 DiMP-50 DiMP−50,相对增益为 2.6 2.6 2.6%, A U C AUC AUC得分达到 63.5 63.5 63.5%。
5 总结
我们提出了一种新的跟踪架构,该架构可以利用场景信息来提高跟踪性能。我们的跟踪器将场景信息表示为密集的局部状态向量。这些状态向量通过序列传播,并与外观模型输出相结合以定位目标。我们根据 5 5 5个跟踪基准对所提出的方法进行了评估。我们的跟踪器在其中 3 3 3个基准上设置了最先进的技术,展示了利用场景信息进行跟踪的好处。
鸣谢:这项工作得到了华为技术 O y Oy Oy(芬兰)项目、苏黎世联邦理工学院基金( O K OK OK)、亚马逊 A W S AWS AWS赠款和英伟达硬件赠款的支持。
补充材料
补充材料提供了有关网络架构和结果的其他详细信息。在第 6 \boxed{6} 6节中,我们提供了有关踪体系结构的详细信息。第 7 \boxed{7} 7节包含了 V O T 2018 VOT2018 VOT2018数据集的详细结果,而第 8 \boxed{8} 8节提供了我们的方法与基线跟踪器$ DiMP-50$[3]的定性比较。
网络详细信息
在本节中,我们将提供有关我们的跟踪架构的更多详细信息。
状态初始值设定项 γ: 给定第一帧目标注释 B 0 B_0 B0作为输入,初始化器网络首先生成指定目标中心的单通道标签图。我们使用高斯函数来生成这个标签映射。标签映射通过具有 3 × 3 3×3 3×3核的单个卷积层。输出然后通过 t a n h tanh tanh激活来获得初始状态向量。
状态传播: 我们使用 R e s N e t − 50 ResNet-50 ResNet−50[19]的第四个卷积块的特征,其空间步长为 16 16 16,来构建我们的成本矩阵。我们的网络可以处理任何输入分辨率的图像。然而,在我们所有的实验中,为了方便起见,我们将输入搜索区域裁剪调整为 288 × 288 288×288 288×288。因此,用于计算成本量的特征 x x x具有尺寸 W = H = 18 W=H=18 W=H=18,其中 D m = 1024 D_m=1024 Dm=1024个通道。用于成本体积计算的最大位移 d m a x d_{max} dmax被设置为 9 9 9。
用于映射原始成本矩阵切片以获得处理的匹配成本 φ φ φ的网络架构如表 5 \boxed{5} 5所示。请注意,所有成本矩阵切片的网络权重都是共享的。我们使用相同的网络架构来处理初始对应关系 φ ′ φ' φ′。
目标置信度得分预测: 我们的预测器模块 P P P的网络架构如表 6 \boxed{6} 6所示。
状态更新: 状态更新模块 Φ Φ Φ包含执行状态更新的卷积门控电流单元( C o n v G R U ConvGRU ConvGRU)[1]。 C o n v G R U ConvGRU ConvGRU的输入 f t ∈ R W × H × 4 f_t∈R^{W×H×4} ft∈RW×H×4是通过连接目标置信度得分 ς t ∈ R W × H × 1 ς_t∈R^{W×H×1} ςt∈RW×H×1和外观模型输出 s t ∈ R W × H × 1 s_t∈R^{W×H×1} st∈RW×H×1以及它们在第三维度上的最大值来获得的。将传播状态向量 h ^ t − 1 ∈ R W × h × S \hat h_{t−1}∈R^{W×h×S} h^t−1∈RW×h×S视为 C o n v G R U ConvGRU ConvGRU在前一时间步长的隐藏状态。我们使用 C o n v G R U ConvGRU ConvGRU的标准更新方程 z t = σ ( C o n v ( f t ⨁ h ^ t − 1 ) ) (9a) z_t= σ(Conv({f_t} \bigoplus {\hat h_{t−1}} ) ) \tag{9a} zt=σ(Conv(ft⨁h^t−1))(9a) r t = σ ( C o n v ( f t ⨁ h ^ t − 1 ) ) (9b) r_t= σ(Conv(f_t \bigoplus \hat h_{t−1} ) ) \tag{9b} rt=σ(Conv(ft⨁h^t−1))(9b) h t ~ = t a n h ( C o n v ( f t ⨁ ( r t ⨀ h ^ t − 1 ) ) (9c) \widetilde{h_t}=tanh(Conv(f_t \bigoplus (r_t \bigodot \hat h_{t−1} ) ) \tag{9c} ht =tanh(Conv(ft⨁(rt⨀h^t−1))(9c) h t = ( 1 − z t ) ⨀ h ^ t − 1 + z t ⨀ h t ~ (9d) h_t=(1-z_t)\bigodot \hat h_{t-1}+z_t\bigodot \widetilde{h_t} \tag{9d} ht=(1−zt)⨀h^t−1+zt⨀ht (9d) 这里, ⨁ \bigoplus ⨁表示沿着第三维度的特征图的串联,而 ⨀ \bigodot ⨀表示元素乘积。 σ σ σ和 t a n h tanh tanh表示S形和双曲线。代谢切线激活函数。我们对所有卷积层使用 3 × 3 3×3 3×3核,用 C o n v Conv Conv表示。
层 | 活动 | 输出大小 |
---|---|---|
1 | Conv+BN+ReLU | 18×18×8 |
2 | Conv+BN | 18×18×1 |
表五: 用于处理成本卷切片的网络体系结构。该网络将单个成本卷切片(大小为 18 × 18 × 1 18×18×1 18×18×1)作为输入。所有卷积层都使用 3 × 3 3×3 3×3内核。 B N BN BN表示批量标准化[24]
层 | 活动 | 输出大小 |
---|---|---|
1 | Conv+ReLu | 18×18×16 |
2 | Conv+Sigmoid | 18×18×1 |
表六 预测器模块 P P P的网络架构。网络的输入是通过连接传播状态 h ^ t − 1 \hat h_{t−1} h^t−1( 18 × 18 × 8 18×18×8 18×18×8)、可靠性得分 ξ t ξ_t ξt( 18 × 18 x 1 18×18x1 18×18x1)和外观模型输出 s t s_t st( 18 x 18 x 1 18x18x1 18x18x1)来获得的。所有卷积层都使用 3 × 3 3×3 3×3内核。
7 VOT2018的详细结果
在这里,我们提供了 V O T 2018 VOT2018 VOT2018[29]数据集的详细结果,该数据集由 60 60 60个具有挑战性的视频组成。使用预期平均重叠曲线来评估跟踪器,该曲线绘制了不同序列长度的跟踪器预测和地面实况之间的预期平均重叠。预期平均重叠值在典型序列长度上的平均值提供了用于对跟踪器进行排序的预期平均重叠( E A O EAO EAO)分数。关于 E A O EAO EAO分数计算的更多细节,我们参考[28]。
我们将我们的方法与最近最先进的跟踪器进行了比较: D R T DRT DRT[41]、 R C O RCO RCO[29]、 U P D T UPDT UPDT[4]、 D a S i a m R P N DaSiamRPN DaSiamRPN[52]、 M F T MFT MFT[29]、 L A D C F LADCF LADCF[48]、 A T O M ATOM ATOM[8]、 S i a m R P N + SiamRPN+ SiamRPN+[31]和 D i M P − 50 DiMP-50 DiMP−50[3]。图 5 \boxed{5} 5显示了预期的平均重叠曲线。图例中显示了每个跟踪器的 E A O EAO EAO分数。我们的方法获得了最佳结果, E A O EAO EAO得分为 0.462 0.462 0.462,优于之前的最佳方法 D i M P − 50 DiMP-50 DiMP−50,相对改进了 5 5 5%。这证明了利用场景信息进行跟踪的好处。
8 定性结果
在这里,我们将我们的方法与基线跟踪器
D
i
M
P
−
50
DiMP-50
DiMP−50[3]进行了定性比较,后者仅使用外观模型。图
6
\boxed{6}
6显示了几个示例序列中两个跟踪器的跟踪输出。
D
i
M
P
−
50
DiMP-50
DiMP−50努力处理仅凭外表很难区分的干扰物(第二、第三、第五)。相反,我们的方法意识到干扰场景中的对象,并且可以利用该场景信息来实现鲁棒跟踪。
- 图5 V O T 2018 VOT2018 VOT2018数据集上的预期平均重叠曲线。该图显示了不同序列长度的跟踪器预测和地面实况之间的预期重叠。预期平均重叠( E A O EAO EAO)分数,计算为典型序列长度(阴影区域)上预期重叠值的平均值,显示在末端。我们的跟踪器获得了最好的 E A O EAO EAO分数,优于之前的最佳方法 D i M P − 50 DiMP-50 DiMP−50, E A O EAO EAO相对提高了 5 5 5%。
在目标外观发生快速变化(第一行和第四行)的情况下,传播场景信息也很有帮助。在这些情况下,跟踪背景区域有助于消除目标候选区域,从而大大简化目标定位。最后一行显示了我们方法的失败案例。在这里,外观模型无法检测到由白狗引起的遮挡。结果,状态向量更新不正确,跟踪器开始跟踪白狗。
- 图六我们的方法与基线外观模型 D i M P − 50 DiMP-50 DiMP−50的定性比较。我们的跟踪器提取场景中其他对象的信息,并利用这些信息提供场景感知预测。因此,我们的方法可以处理仅凭外表很难区分的干扰物(第二排、第三排和第五排)。传播的场景信息也有利于识别目标候选区域,这在目标出现快速变化的情况下(第一行和第四行)是有帮助的。最后一行显示了我们方法的失败案例。在这里,外观模型无法检测到由白色狗引起的遮挡。这会导致不正确的状态更新,从而导致跟踪失败
参考资料
- Ballas, N., Yao, L., Pal, C., Courville, A.C.: Delving deeper into convolutional
networks for learning video representations. In: ICLR (2016) - Bertinetto, L., Valmadre, J., Henriques, J.F., Vedaldi, A., Torr, P.H.: Fullyconvolutional siamese networks for object tracking. In: ECCV workshop (2016)
- Bhat, G., Danelljan, M., Gool, L.V., Timofte, R.: Learning discriminative model
prediction for tracking. In: ICCV (2019) - Bhat, G., Johnander, J., Danelljan, M., Khan, F.S., Felsberg, M.: Unveiling the
power of deep tracking. In: ECCV (2018) - Bolme, D.S., Beveridge, J.R., Draper, B.A., Lui, Y.M.: Visual object tracking using
adaptive correlation filters. In: CVPR (2010) - Cho, K., van Merrienboer, B., G¨ul¸cehre, C¸., Bahdanau, D., Bougares, F., Schwenk,
H., Bengio, Y.: Learning phrase representations using RNN encoder-decoder for
statistical machine translation. In: EMNLP (2014) - Danelljan, M., Bhat, G.: PyTracking: Visual tracking library based on PyTorch.
https://github.com/visionml/pytracking (2019), accessed: 1/08/2019 - Danelljan, M., Bhat, G., Khan, F.S., Felsberg, M.: ATOM: Accurate tracking by
overlap maximization. In: CVPR (2019) - Danelljan, M., Bhat, G., Shahbaz Khan, F., Felsberg, M.: ECO: efficient convolution operators for tracking. In: CVPR (2017)
- Danelljan, M., H¨ager, G., Shahbaz Khan, F., Felsberg, M.: Learning spatially regularized correlation filters for visual tracking. In: ICCV (2015)
- Danelljan, M., Robinson, A., Shahbaz Khan, F., Felsberg, M.: Beyond correlation
filters: Learning continuous convolution operators for visual tracking. In: ECCV
(2016) - Dosovitskiy, A., Fischer, P., Ilg, E., H¨ausser, P., Hazirbas, C., Golkov, V., van der
Smagt, P., Cremers, D., Brox, T.: Flownet: Learning optical flow with convolutional
networks. In: ICCV (2015) - Fan, H., Lin, L., Yang, F., Chu, P., Deng, G., Yu, S., Bai, H., Xu, Y., Liao, C.,
Ling, H.: Lasot: A high-quality benchmark for large-scale single object tracking.
CoRR abs/1809.07845 (2018), http://arxiv.org/abs/1809.07845 - Galoogahi, H.K., Fagg, A., Huang, C., Ramanan, D., Lucey, S.: Need for speed: A
benchmark for higher frame rate object tracking. In: ICCV (2017) - Gan, Q., Guo, Q., Zhang, Z., Cho, K.: First step toward model-free, anonymous
object tracking with recurrent neural networks. ArXiv abs/1511.06425 (2015) - Gao, J., Zhang, T., Xu, C.: Graph convolutional tracking. In: CVPR (2019)
- Gladh, S., Danelljan, M., Khan, F.S., Felsberg, M.: Deep motion features for visual
tracking. 2016 23rd International Conference on Pattern Recognition (ICPR) pp.
1243–1248 (2016) - He, A., Luo, C., Tian, X., Zeng, W.: Towards a better match in siamese network
based visual object tracker. In: ECCV workshop (2018) - He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In:
Proceedings of the IEEE conference on computer vision and pattern recognition.
pp. 770–778 (2016)
16 Goutam Bhat, Martin Danelljan, Luc Van Gool, and Radu Timofte - Held, D., Thrun, S., Savarese, S.: Learning to track at 100 fps with deep regression
networks. In: ECCV (2016) - Henriques, J.F., Caseiro, R., Martins, P., Batista, J.: High-speed tracking with
kernelized correlation filters. TPAMI 37(3), 583–596 (2015) - Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural Computation 9,
1735–1780 (1997) - Huang, L., Zhao, X., Huang, K.: Got-10k: A large high-diversity benchmark for
generic object tracking in the wild. arXiv preprint arXiv:1810.11981 (2018) - Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by
reducing internal covariate shift. In: ICML (2015) - Kenan, D., Dong, W., Huchuan, L., Chong, S., Jianhua, L.: Visual tracking via
adaptive spatially-regularized correlation filters. In: CVPR (2019) - Kiani Galoogahi, H., Fagg, A., Lucey, S.: Learning background-aware correlation
filters for visual tracking. In: ICCV (2017) - Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. In: ICLR
(2014) - Kristan, M., Matas, J., Leonardis, A., Felsberg, M., ˇCehovin, L., Fern´andez, G.,
Voj´ır, T., Nebehay, G., Pflugfelder, R., Hger, G.: The visual object tracking vot2015
challenge results. In: ICCV workshop (2015) - Kristan, M., Leonardis, A., Matas, J., Felsberg, M., Pfugfelder, R., Zajc, L.C.,
Vojir, T., Bhat, G., Lukezic, A., Eldesokey, A., Fernandez, G., et al.: The sixth
visual object tracking vot2018 challenge results. In: ECCV workshop (2018) - Lee, H., hankyeol: Bilinear siamese networks with background suppression for visual object tracking. In: BMVC (2019)
- Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., Yan, J.: Siamrpn++: Evolution of
siamese visual tracking with very deep networks. In: CVPR (2019) - Li, B., Yan, J., Wu, W., Zhu, Z., Hu, X.: High performance visual tracking with
siamese region proposal network. In: CVPR (2018) - Li, F., Tian, C., Zuo, W., Zhang, L., Yang, M.: Learning spatial-temporal regularized correlation filters for visual tracking. In: CVPR (2018)
- Li, X., Ma, C., Wu, B., He, Z., Yang, M.H.: Target-aware deep tracking. In: CVPR
(2019) - Ma, C., Huang, J.B., Yang, X., Yang, M.H.: Hierarchical convolutional features for
visual tracking. In: ICCV (2015) - M¨uller, M., Bibi, A., Giancola, S., Al-Subaihi, S., Ghanem, B.: Trackingnet: A
large-scale dataset and benchmark for object tracking in the wild. In: ECCV (2018) - Nam, H., Han, B.: Learning multi-domain convolutional neural networks for visual
tracking. In: CVPR (2016) - Ning, G., Zhang, Z., Huang, C., He, Z., Ren, X., Wang, H.: Spatially supervised
recurrent convolutional neural networks for visual object tracking. 2017 IEEE International Symposium on Circuits and Systems (ISCAS) pp. 1–4 (2016) - Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified,
real-time object detection. In: CVPR (2016) - Song, Y., Ma, C., Gong, L., Zhang, J., Lau, R., Yang, M.H.: CREST: Convolutional
residual learning for visual tracking. In: ICCV (2017) - Sun, C., Wang, D., Lu, H., Yang, M.: Correlation tracking via joint discrimination
and reliability learning. In: CVPR (2018) - Sun, D., Yang, X., Liu, M.Y., Kautz, J.: Pwc-net: Cnns for optical flow using
pyramid, warping, and cost volume. In: CVPR (2017) - Valmadre, J., Bertinetto, L., Henriques, J.F., Vedaldi, A., Torr, P.H.S.: End-to-end
representation learning for correlation filter based tracking. In: CVPR (2017)
Know Your Surroundings: Exploiting Scene Information for Object Tracking 17 - Wang, Q., Teng, Z., Xing, J., Gao, J., Hu, W., Maybank, S.J.: Learning attentions:
Residual attentional siamese network for high performance online visual tracking.
In: CVPR (2018) - Wu, Y., Lim, J., Yang, M.H.: Object tracking benchmark. TPAMI 37(9), 1834–
1848 (2015) - Xiao, J., Qiao, L., Stolkin, R., Leonardis, A.: Distractor-supported single target
tracking in extremely cluttered scenes. In: ECCV (2016) - Xu, J., Ranftl, R., Koltun, V.: Accurate Optical Flow via Direct Cost Volume
Processing. In: CVPR (2017) - Xu, T., Feng, Z., Wu, X., Kittler, J.: Learning adaptive discriminative correlation
filters via temporal consistency preserving spatial feature selection for robust visual
tracking. CoRR abs/1807.11348 (2018), http://arxiv.org/abs/1807.11348 - Yang, T., Chan, A.B.: Recurrent filter learning for visual tracking. 2017 IEEE
International Conference on Computer Vision Workshops (ICCVW) pp. 2010–2019
(2017) - Yang, T., Chan, A.B.: Learning dynamic memory networks for object tracking. In:
ECCV (2018) - Zhang, L., Gonzalez-Garcia, A., Weijer, J.v.d., Danelljan, M., Khan, F.S.: Learning
the model update for siamese trackers. In: The IEEE International Conference on
Computer Vision (ICCV) (October 2019) - Zhu, Z., Wang, Q., Bo, L., Wu, W., Yan, J., Hu, W.: Distractor-aware siamese
networks for visual object tracking. In: ECCV (2018) - Zhu, Z., Wu, W., Zou, W., Yan, J.: End-to-end flow correlation tracking with
spatial-temporal attention. In: IEEE Conference on Computer Vision and Pattern
Recognition, CVPR 2018 (2018)