目录
摘要
当前端到端可训练计算机视觉系统的努力对视觉跟踪任务提出了重大挑战。与大多数其他视觉问题不同,跟踪需要在推理阶段在线学习健壮的特定于目标的外观模型。因此,为了端到端可训练,目标模型的在线学习需要嵌入到跟踪体系结构本身中。由于这些挑战,流行的Siamese范例只是简单地预测目标特征模板,而忽略了推理过程中的背景外观信息。因此,预测模型具有有限的目标-背景分辨能力。
我们开发了一种端到端的跟踪体系结构,能够充分利用目标和背景外观信息进行目标模型预测。我们的体系结构是通过设计一个专门的优化过程,它能够在几次迭代中预测一个强大的模型,从而从辨别性学习损失中派生出来的。此外,我们的方法能够了解歧视性损失本身的关键方面。建议的跟踪器在6个跟踪基准上设定了新的最先进水平,在VOT2018上实现了0:440的EAO分数,同时运行速度超过40 FPS。代码和模型可以在https://github.com/visionml/pytracking上找到。
1.引言
通用目标跟踪是在视频序列的每一帧中估计任意目标的状态的任务。在最一般的设置中,目标仅由序列中的初始状态定义。当前的大多数方法通过构造能够区分目标和背景外观的目标模型来解决跟踪问题。由于特定于目标的信息仅在测试时可用,因此不能在脱机训练阶段学习目标模型,例如在目标检测中。相反,目标模型必须在推理阶段本身通过利用测试时给出的目标信息来构建。视觉跟踪问题的这种非常规性质给追求端到端学习解决方案带来了重大挑战。
Siamese学习范式最成功地解决了上述问题[2,23]。这些方法首先学习特征嵌入,其中两个图像区域之间的相似度是通过简单的互相关来计算的。然后,通过找到与目标模板最相似的图像区域来执行跟踪。在该设置中,目标模型简单地对应于从目标区域提取的模板特征。因此,可以使用带注释的图像对容易地端到端地训练跟踪器。
尽管Siamese语学习框架最近取得了成功,但它仍受到严重限制。首先,Siamese跟踪器在推断模型时只利用目标外观。这完全忽略了背景外观信息,这对于区分场景中的目标和类似对象至关重要(参见图1)。其次,对于未包括在离线训练集中的对象,学习的相似性度量不一定可靠,导致泛化较差。第三,Siamese架构表示没有提供一个好的更新策略。取而代之的是,最先进的方法求助于简单的模板平均[46]。与其他最先进的跟踪方法相比,这些限制导致鲁棒性较差[20]。
图1.由目标模型提供的目标对象的置信度图(红色方框),使用i)Siamese方法(中)和ii)我们的方法(右)获得。这个模型以Siamese式的方式预测,只使用目标的外观,努力区分目标和背景中的干扰物体。相比之下,我们的模型预测架构还集成了背景外观,提供了卓越的区分能力
在这项工作中,我们引入了一种替代的跟踪体系结构,以端到端的方式进行训练,直接解决了所有上述限制。在我们的设计中,我们从最近成功应用于跟踪器[6,9,30]的判别性在线学习程序中获得灵感。我们的方法是基于目标模型预测网络,该网络是通过应用迭代优化过程从可区分的学习损失中导出的。该体系结构经过精心设计,以实现有效的端到端训练,同时最大限度地提高预测模型的区分能力。这是通过通过两个关键设计选择确保最少数量的优化步骤来实现的。首先,我们采用基于最陡下降的方法,在每次迭代中计算最佳步长。其次,我们集成了一个有效初始化目标模型的模块。此外,通过学习判别性学习损失本身,我们在我们的最终体系结构中引入了显著的灵活性。
我们的整个跟踪架构,连同主干特征提取器,通过最小化未来帧上的预测误差,使用带注释的跟踪序列进行训练。我们在VOT2018[20]、LaSOT[10]、TrackingNet[27]、GOT10k[16]、NFS[12]、OTB-100[43]和UAV123[26]等7个跟踪基准上进行了综合实验。我们的方法在所有7个数据集上实现了最先进的结果,同时以超过40 FPS的速度运行。我们还对建议的体系结构进行了广泛的实验分析,展示了每个组件的影响。
2.相关工作
近年来,随着各种方法的发展,通用目标跟踪取得了惊人的进展。近年来,基于Siamese网络[2,23,39]的方法因其端到端的训练能力和高效率而备受关注。该名称源于Siamese网络架构的部署,以便离线学习相似性度量。Bertinetto等人[2]利用全卷积结构进行相似性预测,从而获得超过100FPS的高跟踪速度。Wang等人[42]学习残留注意力机制以使跟踪模型适应当前目标。Li等人[23]使用区域建议网络[34]来获得准确的边界框。
Siamese方法的一个关键限制是它们不能将来自背景区域或先前跟踪的帧的信息合并到模型预测中。最近的一些尝试旨在解决这些问题。郭某等人[13]学习特征变换以处理目标外观更改并抑制背景。朱等人[46]在在线跟踪期间,通过从目标模板中减去相应的图像特征来处理背景干扰。尽管进行了这些尝试,Siamese追踪器还没有达到使用在线学习的最先进的追踪器所达到的高水平的鲁棒性[20]。
与Siamese方法不同的是,另一类跟踪器[6,7,30]在线学习辨别分类器,以区分目标对象和背景。这些方法可以有效地利用背景信息,从而在多个跟踪基准上获得令人印象深刻的鲁棒性[20,43]。然而,这些方法依赖于更复杂的在线学习程序,而这些程序在端到端的学习框架中不容易制定。因此,这些方法通常局限于从为图像分类[9,25]预先训练的深层网络或手工制作的备选方案[8]中提取的特征。
最近的一些工作旨在将现有的基于判别性在线学习的跟踪器作为神经网络组件,以便从端到端训练中受益。Valmadre等人[41]将相关滤波器(CF)[15]的单样本封闭解集成到深层网络中。姚等人[45]在BACF[18]跟踪器中展开ADMM迭代,以了解复杂多阶段训练过程中的特征提取器和一些跟踪超参数。然而,BACF模型学习仅限于傅立叶域CF公式的单样本变体,其不能利用多个样本,需要用于模型自适应的特别线性滤波器组合。
学习只使用几幅图像来预测目标模型的问题与元学习密切相关[11,28,29,33,35,36,40]。一些作品已经在追寻这一方向。Bertinetto等人[1]元训练网络以预测跟踪模型的参数。Choi等人[5]利用元学习器预测目标特定特征空间,以补充Siamese跟踪器中用于估计相似性的通用目标无关特征空间。Park等人[32]开发一个元学习框架,该框架采用初始目标独立模型,然后使用具有学习步长的梯度下降来改进该模型。然而,固定步长只适用于模型的快速初始自适应,在迭代应用时不能提供最佳的收敛性。
3.方法
在这项工作中,我们开发了一种用于跟踪的判别模型预测体系结构。就像Siamese追踪器一样,我们的方法得益于端到端的训练。然而,与Siamese不同的是,我们的体系结构可以充分利用背景信息,并提供自然而强大的手段来使用新数据更新目标模型。我们的模型预测网络基于两个主要原则:(I)在学习的目标模型中,具有促进稳健性的判别性学习损失;(II)一个确保快速融合的强有力的优化策略。通过这样仔细的设计,我们的体系结构可以在不影响其辨别能力的情况下,在几次迭代中预测目标模型。
在我们的框架中,目标模型构成卷积层的权重,提供目标分类分数作为输出。我们的模型预测体系结构通过将一组带包围盒注释的图像样本作为输入来计算这些权重。模型预测器包括初始化器网络,该初始化器网络仅使用目标外观有效地提供模型权重的初始估计。然后由优化器模块处理这些权重,同时考虑目标和背景外观。通过设计,我们的优化器模块拥有很少的可学习参数,以避免离线训练时对某些类和场景的过度拟合。因此,我们的模型预测器可以推广到看不见的目标,这在通用目标跟踪中是至关重要的。
我们最终的跟踪架构由两个分支组成:目标分类分支(见图2),用于区分目标和背景,以及边界框估计分支,用于预测准确的目标框。两个分支机构都从共同的主干网络输入深层功能。目标分类分支包含卷积块,提取分类器操作的特征。给定样本的训练集和对应的目标框,模型预测器生成目标分类器的权重。然后,将这些权重应用于从测试帧中提取的特征,以便计算目标置信度分数。对于边界框估计分支,我们利用了[6]中介绍的基于重叠最大化的架构。整个跟踪网络,包括目标分类、包围盒估计和主干模块,都是在跟踪数据集上离线训练的。
图2.我们的跟踪体系结构中目标分类分支的概述。给定一个带注释的训练集(左上角),我们使用主干网络和附加卷积块(CLS Feat)提取深度特征图。然后,特征映射被输入到模型预测器D,该模型预测器D由初始化器和递归优化器模块组成。模型预测器输出卷积层的权重,卷积层对从测试帧提取的特征图执行目标分类