目录
摘要
当前端到端可训练计算机视觉系统的努力对视觉跟踪任务提出了重大挑战。与大多数其他视觉问题不同,跟踪需要在推理阶段在线学习健壮的特定于目标的外观模型。因此,为了端到端可训练,目标模型的在线学习需要嵌入到跟踪体系结构本身中。由于这些挑战,流行的Siamese范例只是简单地预测目标特征模板,而忽略了推理过程中的背景外观信息。因此,预测模型具有有限的目标-背景分辨能力。
我们开发了一种端到端的跟踪体系结构,能够充分利用目标和背景外观信息进行目标模型预测。我们的体系结构是通过设计一个专门的优化过程,它能够在几次迭代中预测一个强大的模型,从而从辨别性学习损失中派生出来的。此外,我们的方法能够了解歧视性损失本身的关键方面。建议的跟踪器在6个跟踪基准上设定了新的最先进水平,在VOT2018上实现了0:440的EAO分数,同时运行速度超过40 FPS。代码和模型可以在https://github.com/visionml/pytracking上找到。
1.引言
通用目标跟踪是在视频序列的每一帧中估计任意目标的状态的任务。在最一般的设置中,目标仅由序列中的初始状态定义。当前的大多数方法通过构造能够区分目标和背景外观的目标模型来解决跟踪问题。由于特定于目标的信息仅在测试时可用,因此不能在脱机训练阶段学习目标模型,例如在目标检测中。相反,目标模型必须在推理阶段本身通过利用测试时给出的目标信息来构建。视觉跟踪问题的这种非常规性质给追求端到端学习解决方案带来了重大挑战。
Siamese学习范式最成功地解决了上述问题[2,23]。这些方法首先学习特征嵌入,其中两个图像区域之间的相似度是通过简单的互相关来计算的。然后,通过找到与目标模板最相似的图像区域来执行跟踪。在该设置中,目标模型简单地对应于从目标区域提取的模板特征。因此,可以使用带注释的图像对容易地端到端地训练跟踪器。
尽管Siamese语学习框架最近取得了成功,但它仍受到严重限制。首先,Siamese跟踪器在推断模型时只利用目标外观。这完全忽略了背景外观信息,这对于区分场景中的目标和类似对象至关重要(参见图1)。其次,对于未包括在离线训练集中的对象,学习的相似性度量不一定可靠,导致泛化较差。第三,Siamese架构表示没有提供一个好的更新策略。取而代之的是,最先进的方法求助于简单的模板平均[46]。与其他最先进的跟踪方法相比,这些限制导致鲁棒性较差[20]。
图1.由目标模型提供的目标对象的置信度图(红色方框),使用i)Siamese方法(中)和ii)我们的方法(右)获得。这个模型以Siamese式的方式预测,只使用目标的外观,努力区分目标和背景中的干扰物体。相比之下,我们的模型预测架构还集成了背景外观,提供了卓越的区分能力
在这项工作中,我们引入了一种替代的跟踪体系结构,以端到端的方式进行训练,直接解决了所有上述限制。在我们的设计中,我们从最近成功应用于跟踪器[6,9,30]的判别性在线学习程序中获得灵感。我们的方法是基于目标模型预测网络,该网络是通过应用迭代优化过程从可区分的学习损失中导出的。该体系结构经过精心设计,以实现有效的端到端训练,同时最大限度地提高预测模型的区分能力。这是通过通过两个关键设计选择确保最少数量的优化步骤来实现的。首先,我们采用基于最陡下降的方法,在每次迭代中计算最佳步长。其次,我们集成了一个有效初始化目标模型的模块。此外,通过学习判别性学习损失本身,我们在我们的最终体系结构中引入了显著的灵活性。
我们的整个跟踪架构,连同主干特征提取器,通过最小化未来帧上的预测误差,使用带注释的跟踪序列进行训练。我们在VOT2018[20]、LaSOT[10]、TrackingNet[27]、GOT10k[16]、NFS[12]、OTB-100[43]和UAV123[26]等7个跟踪基准上进行了综合实验。我们的方法在所有7个数据集上实现了最先进的结果,同时以超过40 FPS的速度运行。我们还对建议的体系结构进行了广泛的实验分析,展示了每个组件的影响。
2.相关工作
近年来,随着各种方法的发展,通用目标跟踪取得了惊人的进展。近年来,基于Siamese网络[2,23,39]的方法因其端到端的训练能力和高效率而备受关注。该名称源于Siamese网络架构的部署,以便离线学习相似性度量。Bertinetto等人[2]利用全卷积结构进行相似性预测,从而获得超过100FPS的高跟踪速度。Wang等人[42]学习残留注意力机制以使跟踪模型适应当前目标。Li等人[23]使用区域建议网络[34]来获得准确的边界框。
Siamese方法的一个关键限制是它们不能将来自背景区域或先前跟踪的帧的信息合并到模型预测中。最近的一些尝试旨在解决这些问题。郭某等人[13]学习特征变换以处理目标外观更改并抑制背景。朱等人[46]在在线跟踪期间,通过从目标模板中减去相应的图像特征来处理背景干扰。尽管进行了这些尝试,Siamese追踪器还没有达到使用在线学习的最先进的追踪器所达到的高水平的鲁棒性[20]。
与Siamese方法不同的是,另一类跟踪器[6,7,30]在线学习辨别分类器,以区分目标对象和背景。这些方法可以有效地利用背景信息,从而在多个跟踪基准上获得令人印象深刻的鲁棒性[20,43]。然而,这些方法依赖于更复杂的在线学习程序,而这些程序在端到端的学习框架中不容易制定。因此,这些方法通常局限于从为图像分类[9,25]预先训练的深层网络或手工制作的备选方案[8]中提取的特征。
最近的一些工作旨在将现有的基于判别性在线学习的跟踪器作为神经网络组件,以便从端到端训练中受益。Valmadre等人[41]将相关滤波器(CF)[15]的单样本封闭解集成到深层网络中。姚等人[45]在BACF[18]跟踪器中展开ADMM迭代,以了解复杂多阶段训练过程中的特征提取器和一些跟踪超参数。然而,BACF模型学习仅限于傅立叶域CF公式的单样本变体,其不能利用多个样本,需要用于模型自适应的特别线性滤波器组合。
学习只使用几幅图像来预测目标模型的问题与元学习密切相关[11,28,29,33,35,36,40]。一些作品已经在追寻这一方向。Bertinetto等人[1]元训练网络以预测跟踪模型的参数。Choi等人[5]利用元学习器预测目标特定特征空间,以补充Siamese跟踪器中用于估计相似性的通用目标无关特征空间。Park等人[32]开发一个元学习框架,该框架采用初始目标独立模型,然后使用具有学习步长的梯度下降来改进该模型。然而,固定步长只适用于模型的快速初始自适应,在迭代应用时不能提供最佳的收敛性。
3.方法
在这项工作中,我们开发了一种用于跟踪的判别模型预测体系结构。就像Siamese追踪器一样,我们的方法得益于端到端的训练。然而,与Siamese不同的是,我们的体系结构可以充分利用背景信息,并提供自然而强大的手段来使用新数据更新目标模型。我们的模型预测网络基于两个主要原则:(I)在学习的目标模型中,具有促进稳健性的判别性学习损失;(II)一个确保快速融合的强有力的优化策略。通过这样仔细的设计,我们的体系结构可以在不影响其辨别能力的情况下,在几次迭代中预测目标模型。
在我们的框架中,目标模型构成卷积层的权重,提供目标分类分数作为输出。我们的模型预测体系结构通过将一组带包围盒注释的图像样本作为输入来计算这些权重。模型预测器包括初始化器网络,该初始化器网络仅使用目标外观有效地提供模型权重的初始估计。然后由优化器模块处理这些权重,同时考虑目标和背景外观。通过设计,我们的优化器模块拥有很少的可学习参数,以避免离线训练时对某些类和场景的过度拟合。因此,我们的模型预测器可以推广到看不见的目标,这在通用目标跟踪中是至关重要的。
我们最终的跟踪架构由两个分支组成:目标分类分支(见图2),用于区分目标和背景,以及边界框估计分支,用于预测准确的目标框。两个分支机构都从共同的主干网络输入深层功能。目标分类分支包含卷积块,提取分类器操作的特征。给定样本的训练集和对应的目标框,模型预测器生成目标分类器的权重。然后,将这些权重应用于从测试帧中提取的特征,以便计算目标置信度分数。对于边界框估计分支,我们利用了[6]中介绍的基于重叠最大化的架构。整个跟踪网络,包括目标分类、包围盒估计和主干模块,都是在跟踪数据集上离线训练的。
图2.我们的跟踪体系结构中目标分类分支的概述。给定一个带注释的训练集(左上角),我们使用主干网络和附加卷积块(CLS Feat)提取深度特征图。然后,特征映射被输入到模型预测器D,该模型预测器D由初始化器和递归优化器模块组成。模型预测器输出卷积层的权重,卷积层对从测试帧提取的特征图执行目标分类
3.1 判别性学习损失
在这一部分中,我们将描述用于推导我们的模型预测体系结构的辨别性学习损失。我们的模型预测器D的输入包括由特征提取网络F生成的深特征映射的训练集
。每个样本与相应的目标中心坐标配对。给定这些数据,我们的目标是预测目标模型。模型f被定义为卷积层的滤波器权重,其任务是在特征空间X中区分目标和背景外观。我们从基于最小二乘回归的跟踪问题中获得灵感,这在最近几年取得了巨大的成功[6,7,15]。然而,在这项工作中,我们推广了传统的最小二乘损失在几个方向上的应用,允许最终的跟踪网络从数据中学习最优的损失。
一般说来,我们认为这是一种形式上的损失,
这里,∗表示卷积,λ表示正则化因子。函数r(s,c)基于目标置信度分数s=x∗f和地面真实目标中心坐标c来计算每个空间位置处的残差。最常见的选择是,其中是每个位置的期望目标分数,通常设置为以c[4]为中心的高斯函数。然而,简单地取差值会迫使模型回归所有负值样本的校准置信度分数,通常为零。这就需要相当大的模型容量,迫使学习集中在负数据样本上,而不是获得最好的判别能力。此外,采用NAVE差异并不能解决目标和后台之间数据不平衡的问题。
为了缓解数据不平衡的后一个问题,我们使用空间权重函数。下标c表示对目标中心位置的依赖性,如第3.4节中详细描述的。为了适应第一个问题,我们遵循支持向量机的原理修改损失。我们在r中采用铰链状的损失,在背景区域中将分数在零处裁剪为max(0,s)。因此该模型可以自由地为背景中的简单样本预测大的负值,而不会增加损失。另一方面,对于目标区域,我们发现增加一个类似的铰链损耗max(0,1−s)是不利的。虽然乍一看是矛盾的,但这种行为可以归因于目标和背景类别之间的根本不对称,部分原因是数字不平衡。此外,准确校准的目标置信度在跟踪场景中确实是有利的,例如用于检测目标丢失。因此,我们希望在目标邻域内具有标准最小二乘回归的性质。
为了兼顾最小二乘回归和铰链损失的优点,我们定义了残差函数,
目标区域由掩码定义,在每个空间位置具有间隔中的值。同样,下标c表示对目标中心坐标的依赖性。根据图像相对于目标中心c的位置,(2)中的公式能够连续地将损耗的行为从标准最小二乘回归改变为铰链损耗。在目标处设置≈1并且在背景区域中设置≈0产生上述所需的行为。然而,如何优化设置尚不清楚,尤其是在目标和背景之间的过渡区域。虽然经典的策略是使用试错法手动设置掩码参数,但我们的端到端公式允许我们以数据驱动的方式学习掩码。事实上,正如第3.4节中详细描述的那样,我们的方法学习损失中的所有自由参数:目标掩码、空间权重、正则化因子λ,甚至回归目标本身。
3.2 基于优化的体系结构
这里,我们推导出通过隐式最小化误差(1)来预测滤波器的网络结构D。通过制定优化程序进行网络设计。从等式(1)和(2)我们可以容易地推导出损失相对于滤波器的梯度的闭合表达式。直接选项是然后使用步长α使用梯度下降,
然而,我们发现这种简单的方法是不够的,即使学习率α(标量或系数特定)是由网络本身学习的(见第4.1节)。它经历了滤波器参数f的缓慢自适应,需要大量增加迭代次数。这损害了效率,并使线下学习复杂化。
梯度下降的缓慢收敛在很大程度上是由于恒定步长α不依赖于数据或者是当前的模型估计值。我们通过推导出一种更精细的优化方法来解决这个问题,该方法只需要几次迭代就可以预测一个强可分辨滤波器f。其核心思想是基于最陡下降方法计算步长α,这是一种常见的优化技术[31,37]。我们首先用二次函数来近似当前估计f(i)处的损失,
这里,将滤波器变量f和f(i)视为向量,为正定方阵。然后,通过寻找使梯度方向(3)上的近似损失(4)最小化的步长α来进行最陡峭的下降。这是通过求解来实现的,就如
在最陡下降中,公式(5)用于在滤波器更新(3)的每次迭代中计算标量步长α。
二次模型(4)以及由此得到的步长(5)取决于Q(i)的选择。例如,通过使用缩放的单位矩阵,我们检索具有固定步长α=β的标准梯度下降算法。另一方面,我们现在可以将二阶信息集成到优化过程中。最明显的选择是将设置为损失(1)的Hessian矩阵,这对应于二阶泰勒近似(4)。然而,对于我们的最小二乘公式(1),高斯-牛顿方法[31]提供了一种强大的替代方法,因为它只涉及一阶导数,因此具有显著的计算优势。因此,我们设定,其中J(i)是f(i)处的残差的Jacobian。事实上,矩阵Q(i)或雅可比J(i)都不需要显式构造,而是作为一系列神经网络操作来实现。有关详细信息,请参阅补充材料(S2节)。算法1描述了我们的目标模型预测器D。请注意,我们的优化器模块也可以很容易地用于在线模型自适应。这是通过用来自先前跟踪的帧的新样本连续扩展训练集应变来实现的。然后将优化器模块应用于该扩展训练集,使用当前目标模型作为初始化f(0)。
3.3 初始滤波器预测
为了进一步减少D中所需的优化递归次数,我们引入了一个预测初始模型估计f(0)的小网络模块。我们的初始化器网络由卷积层和精确的ROI池组成[17]。后者从目标区域中提取特征并将它们汇集到与目标模型 f 相同的大小。然后,将汇集的特征映射在所有样本上进行平均,以获得初始模型f(0)。与Siamese追踪器一样,这种方法只利用目标外观。然而,我们的初始化器网络的任务不是预测最终模型,而是只提供合理的初始估计,然后由优化器模块进行处理以提供最终模型。
3.4 学习判别性学习损失
这里,我们描述如何学习定义损失(1)的残差函数(2)中的自由参数。我们的残差函数包括标签置信度分数、空间权重函数和目标掩码。虽然这些变量在当前基于判别性在线学习的跟踪器中是手工构建的,但我们的方法实际上是从数据中学习这些函数。我们根据与目标中心的距离对它们进行参数化。这是由问题的径向对称性引起的,其中相对于目标的样品位置的方向意义不大。
相比之下,到样本位置的距离起着至关重要的作用,特别是在从目标到背景的过渡过程中。因此,我们使用径向基函数ρk来参数化yc、mc和vc,并学习它们的系数φk。例如,位置处的标签yc由下式给出
我们使用三角基函数ρk,定义为
上述公式对应于节点位移为∆的连续分段线性函数。注意,最后的情况k=N−1表示远离目标中心的所有位置,因此可以被同等对待。我们使用一个较小的∆来实现目标-背景转换时回归标签的精确表示。函数vc和mc在(6)中分别使用系数和被类似地参数化。对于目标掩码,通过将(6)的输出通过Sigmoid函数传递,我们将这些值限制在区间[0,1]内。
我们使用N=100基函数,并在深特征空间X的分辨率中将节点位移设置为∆=0.1。对于离线训练,回归标签被初始化为与在第3.6节中描述的离线分类损失中使用的相同的高斯。权函数vc被初始化为常数vc(t)=1。最后,我们使用缩放的tanh函数来初始化目标掩码。系数φk和λ一起作为模型预测网络D的一部分被学习(见第3.6节)。、和的初始值和学习值在图3中可视化。值得注意的是,我们的网络学习在目标中心增加权重,并在模糊过渡区域减少它。
图3.学习的回归标签()、目标掩码()和空间权重()的曲线图。标记显示结的位置。每个量的初始化以虚线表示。
3.5 边界框估计
我们利用文献[6]中介绍的重叠最大化策略进行精确的包围盒估计。给定参考目标外观,训练边界框估计分支以预测目标与测试图像上的一组候选框之间的IOU重叠。通过根据目标的参考外观计算调制向量,将目标信息集成到IOU预测中。计算的向量被用来调制来自测试图像的特征,然后这些特征被用于IOU预测。IOU预测网络是可微的w.r.t。输入框相互协调,允许在跟踪过程中通过最大化预测IOU来优化候选框。我们使用与[6]中相同的网络架构。
3.6 离线训练
在这里,我们将介绍我们的离线训练流程。在Siamese方法中,网络使用图像对进行训练,使用一幅图像来预测目标模板,使用另一幅图像来评估跟踪器。相反,我们的模型预测网络D从序列中输入一组多个数据样本。为了更好地利用这一优势,我们在成对的集合(Mtrain;Mtest)上训练了我们的完整跟踪架构。每个集合由与其对应的目标边界框bj配对的图像Ij组成。使用Mtrain预测目标模型,然后在测试帧Mtest上进行评估。特别的,我们的训练让模型预测器D了解如何更好地利用多个样本。通过对序列中长度为Tss的随机片段进行采样来构建集合。然后,我们通过分别从片段的前半部分和后半部分采样N帧来构建Mtrain和Mtest。
给定这对(Mtrain;Mtest),我们首先将图像通过骨干特征提取器来构建我们的目标模型样本训练集和测试集。形式上,得到训练集为,其中cj是盒bj的中心坐标。这被输入到目标预测器f=D(Strain)。其目的是预测一种具有区别性的模型f,该模型可以很好地推广到未来看不见的帧。因此,我们只评估使用Mtest类似地获得的测试样本Stest上的预测模型f。在3.1节的讨论之后,我们使用铰链计算背景样本的回归误差,
这里,阈值T基于标签置信度值z来定义目标区域和背景区域。对于目标区域z>T,我们取预测置信度分数s和标签z之间的差,而我们仅对背景z≤T的正置信度值进行惩罚。
总的目标分类损失被计算为所有测试样本的均方误差(8)。然而,我们不是只评估最终目标模型f,而是将损失平均到优化器在每次迭代i中获得的估计f(i)之上(参见alg.1)。这引入了对目标预测模块的中间监督,有利于训练收敛。此外,我们的目标不是针对特定数量的递归进行训练,而是可以自由地在线设置所需的优化递归数量。因此,对每个迭代f(i)进行相等的求值是很自然的。用于离线训练的目标分类损失由下式给出,
这里,回归标签zc被设置为以目标c为中心的高斯函数。注意,来自滤波器初始化器(部分3.3)的输出f(0)也包括在上述损失中。尽管没有明确标明以避免混乱,但(9)中的x和f(i)都取决于特征提取网络F的参数。模型迭代f(i)另外取决于模型预测器网络D中的参数。
对于边界框估计,我们将[6]中的训练过程扩展到图像集,方法是计算Mtrain中第一帧的调制向量,并从Mtest中的所有图像中采样候选边界框。包围盒估计损失Lbb以Mtest中预测的IOU重叠与地面真实之间的均方误差来计算。我们通过将其与目标分类损失(9)相结合来训练完全跟踪体系结构,如Ltot=βLcls+Lbb。
训练细节:我们使用TrackingNet[27]、LaSOT[10]、GOT10k[16]和COCO[24]数据集的训练拆分。主干网络使用ImageNet权重进行初始化。我们进行50个epoch训练,每个epoch采样20,000个视频,在单个NVIDIA Titan X GPU上的总训练时间不到24小时。我们使用ADAM[19],每隔15个epoch学习速率衰减为0.2。目标分类减重设置为β=100,我们在训练期间使用(9)中的Niter=5优化器模块递归。(Mtrain;Mtest)中的图像面片是通过采样相对于目标注释的随机平移和缩放来提取的。我们将基准比例设置为目标大小的5倍,以包含重要的背景信息。对于每个序列,我们使用Tss=60的数据段长度对Nframes=3测试和训练帧进行采样。标签分数Zc是使用相对于基本目标大小的1/4标准偏差来构建的,并且我们使用T=0.05来表示回归误差(8)。我们采用ResNet架构作为主干。对于模型预测器D,我们使用从第三个块中提取的特征,空间步长为16。我们将目标模型f的核大小设置为4×4。
3.7 在线跟踪
给定带有注释的第一帧,我们采用数据扩充策略[3]来构建包含15个样本的初始集合Strain。然后使用我们的判别模型预测结构f=D(Strain)来获得目标模型。对于第一帧,我们在初始化器模块之后使用了10个最陡下降递归。我们的方法允许目标模型添加新的训练样本到Strain来容易地更新,无论何时以足够的置信度预测目标。我们通过丢弃最旧的样本来确保最大内存大小为50。在跟踪过程中,我们通过每20帧执行两次优化器递归,或者每当检测到干扰峰值时执行一次递归来提炼目标模型f。使用与[6]中相同的设置执行边界框估计。
4.实验
我们的方法是使用PyTorch用Python实现的,在单个NVIDIA GTX 1080 GPU上使用ResNet-18主干和ResNet-50分别以57 FPS和43 FPS运行。补充材料(S3-S6节)提供了详细的结果。
4.1 我们方法分析
这里,我们对所提出的模型预测体系结构进行了广泛的分析。实验在包含整个OTB-100[43]、NFS(30FPS版本)[12]和UAV123[26]数据集的组合数据集上进行。池化数据集包含323个不同的视频,以实现全面分析。追踪器使用AUC[43]指标进行评估。由于跟踪器的随机性,我们总是报告超过5次的平均AUC分数。我们使用ResNet-18作为此分析的主干网络。
优化器模块的影响:我们利用基于最陡下降(SD)的架构,将我们提出的方法与两种替代方法进行了比较。Init:在这里,我们只使用初始化器模块来预测最终的目标模型,这相当于在我们的方法中删除了优化器模块。因此,类似于Siamese方法,只有目标外观信息被用于模型预测,而背景信息被丢弃。GD:在这个方法中,我们用(3)中的基于系数的学习步长α的梯度下降(GD)算法来代替最陡下降。所有网络都使用相同的设置进行训练。这项分析的结果如表1所示。
表1.基于OTB-100、NFS和UAV123组合数据集的不同模型预测架构的分析。仅使用用于模型预测的目标信息(INIT)的体系结构实现了58.2%的AUC得分。提出的基于最陡下降的体系结构(SD)提供了最好的结果,比梯度下降法(GD)的AUC得分高出2.2%以上。
仅使用目标信息的初始化器网络预测的模型达到58.2%的AUC得分。梯度下降法可以利用背景信息,提供了实质性的改进,达到了61.6%的AUC得分。这凸显了模型预测采用判别学习的重要性。我们的最陡下降法获得了最好的结果,比GD高出2.2%。这是由于最陡下降的优越收敛特性,这对于离线学习和快速在线跟踪很重要。
模型预测体系结构分析:在这里,我们通过一次递增地添加一个关键方面来分析所建议的判别性在线学习体系结构的关键方面的影响。结果如表2所示。基线SD构成了我们基于最陡下降的优化器模块,以及在ImageNet上训练的固定ResNet-18网络。也就是说,类似于目前最先进的判别性方法,我们不会微调骨干。我们在优化器模块中使用回归误差(8),而不是学习判别性损失。基线方法的AUC得分为58.7%。通过添加模型初始化器模块(Init),我们在AUC得分上获得了1.3%的显著增益。进一步训练整个网络,包括骨干特征提取器(FT),会使AUC得分显著提高2.6%。这证明了通过端到端学习来学习适合跟踪的专门功能的优势。使用额外的卷积块来提取分类特定特征(CLS)可以进一步提高0.7%的AUC分数。最后,学习辨别性损失(2)本身(损失),如第3.4节所述,将AUC得分再提高0.5%。这表明了通过最大化模型在未来帧上的泛化能力来学习隐式在线损失的好处。
表2.分析初始化器模块(+Init)的影响,使用额外的Conv训练主干(+FT)。块(CLS)和离线学习损失(+Lost),一次递增添加一个。基线SD与在ImageNet上训练的ResNet-18一起构成了我们基于最陡下降的优化器模块
在线模型更新的影响:在这里,我们使用以前跟踪的框架中的信息,分析在线更新目标模型的影响。我们比较了三种不同的模型更新策略。I)不更新:跟踪过程中不更新模型。取而代之的是,我们的模型预测器D在第一帧中预测的模型被用于整个序列。Ii)模型平均:在每一帧中,使用跟踪[15,18,41]中通常采用的当前模型和新预测模型的线性组合来更新目标模型。Iii)我们的:目标模型是使用在线构建的训练集获得的,如第3.7节所述。在没有更新的情况下,naive模型平均值不能改进基线方法(参见表3)。相比之下,我们的方法在AUC得分上比这两种方法都获得了约2%的显著增益,这表明我们的方法可以有效地在线调整目标模型。
表3.OTB-100、NFS和UAV123组合数据集上不同模型更新策略的比较
4.2 与最先进方法比较
我们在七个具有挑战性的跟踪基准上将我们提出的方法DIMP与最先进的方法进行了比较。给出了我们方法的两个版本的结果:分别使用ResNet-18和ResNet-50作为骨干网络的DIMP-18和DIMP-50。
VOT2018[20]:我们评估了2018版视觉对象跟踪(VOT)挑战赛的方法,该挑战赛由60个具有挑战性的视频组成。使用测量精度(成功跟踪的帧上的平均重叠)和稳健性(失败率)来评估跟踪器。这两个措施结合在一起可以得到EAO(Expected Average Overlap)分数用于跟踪器排名。结果如表4所示。在已有的方法中,SiamRPN达到了最好的准确率和EAO。然而,与基于判别学习的方法(如MFT和LADCF)相比,它的鲁棒性要差得多。与上述方法类似,SiamRPN++使用ResNet-50进行特征提取。我们的方法DIMP-50采用相同的主干网络,在EAO方面显著优于SiamRPN++,相对增益为6.3%。此外,与SiamRPN++相比,我们的方法在获得相似精度的同时,失败率降低了34%。这说明判别模型预测是鲁棒跟踪的关键。
表4.VOT2018数据集在预期平均重叠(EAO)、精度方面的最新比较
LaSOT[10]:我们在由280个视频组成的测试集上对我们的方法进行了评估。成功的曲线图如图4所示。与其他数据集相比,LaSOT的序列更长,平均每个序列有2500帧。因此,在线模型自适应对于这个数据集是至关重要的。以前的最佳方法ATOM[6]采用在线区别学习,具有预先训练好的ResNet-18功能。我们的端到端培训方法使用相同的主干架构,性能优于ATOM,相对收益为3.3%,显示了端到端培训的影响。DIMP-50进一步改善了结果,AUC得分为56.9%。这些结果证明了该方法对长序列具有很强的模型自适应能力。
图4.LaSOT数据集上的成功图
TrackingNet[27]:我们在大规模TrackingNet数据集的测试集上评估了我们的方法。结果如表5所示。SiamRPN++获得了令人印象深刻的AUC分数73.3%。我们的方法使用与SiamRPN++相同的ResNet50主干,其AUC得分为74.0%,优于所有以前的方法。
表5.TrackingNet测试集在精确度、归一化精确度和成功率方面的最新比较。
GOT10k[16]:这是一个包含1万多个视频的大规模数据集,其中180个视频构成了用于评估的测试集。有趣的是,训练拆分和测试拆分之间的对象类没有重叠,从而提升了将概化推广到不可见对象类的重要性。为了确保公正的评估,禁止跟踪者使用外部数据集进行培训。我们遵循这一协议,只使用GOT10k列车分离器重新训练我们的跟踪器。结果如表6所示。Atom的平均重叠(AO)得分为55.6%。我们的ResNet-18版本表现优于ATOM,相对增益为4.1%。我们ResNet-50版本实现了最好的AO分数61.1%,验证了我们的跟踪器具有很强的泛化能力。
表6.GOT10k测试集在平均重叠(AO)和重叠阈值0.5和0.75下的成功率(SR)方面的最新比较
速度需求[12]:我们在30FPS版本的数据集上评估了我们的方法,其中包含具有挑战性的具有快速移动对象的视频。所有100个视频的AUC得分如表7所示。之前最好的方法ATOM的AUC得分为58.4%。在使用ResNet-18和ResNet-50时,我们的方法性能优于ATOM,相对增益分别为4.4%和6.0%。
表7.NFS、OTB-100和UAV123数据集在AUC得分方面的最新比较
OTB-100[43]:表7显示了数据集中所有100个视频的AUC得分。在比较的方法中,UPDT效果最好,AUC评分为70.4%。我们的DIMP-50达到了68.4%的AUC分数,与其他最先进的方法相比具有竞争力。
UAV123[26]:这个数据集由从无人机拍摄的123个低空航拍视频组成。AUC的结果如表7所示。在以前的方法中,ATOM的AUC得分为64.2%。DIMP-18和DIMP-50的表现均优于ATOM,AUC得分分别为64.3%和65.4%。
5.结论
我们提出了一种端到端的离线训练的跟踪体系结构。我们的方法是通过应用迭代优化过程从辨别性学习损失中推导出来的。通过使用基于最陡下降的优化器和有效的模型初始化器,我们的方法可以在几个优化步骤中预测一个强大的模型。此外,我们的方法通过最小化不可见测试帧上的预测误差来学习离线训练过程中的区分损失。我们的方法在6个跟踪基准上设置了新的最先进水平,同时以超过40 FPS的速度运行。