self-SDCT：自监督的深度相关性跟踪

最新推荐文章于 2024-09-10 16:00:52 发布

学术特困生

最新推荐文章于 2024-09-10 16:00:52 发布

阅读量187

点赞数

文章标签：深度学习目标跟踪

本文链接：https://blog.csdn.net/qq_55879284/article/details/131541636

版权

本文提出了一种自监督的深度相关跟踪器self-SDCT，它使用多周期一致性损失来训练特征提取网络，无需大量手动标注样本。这种方法结合了前向-向后跟踪一致性，生成伪标签，并通过低相似度退出策略和周期轨迹一致性损失提高网络性能。实验表明self-SDCT与监督和无监督跟踪方法相比，展现出竞争力的跟踪性能。

摘要由CSDN通过智能技术生成

Self-Supervised Deep Correlation Tracking

self-SDCT：自监督的深度相关性跟踪

摘要

特征提取网络的训练通常需要大量的手工注释的训练样本，这使得这成为一个耗时和昂贵的过程。因此，我们提出了一个有效的自监督学习的基于深度相关框架的跟踪器（命名： self-SDCT）。基于鲁棒跟踪器的前向-向后跟踪一致性，我们提出了一种多周期一致性损失作为自监督信息，用于学习相邻视频帧的特征提取网络。在训练阶段，我们在孪生相关跟踪框架下通过前向-向后预测生成连续视频帧的伪标签，并利用所提出的多周期一致性损失来学习特征提取网络。此外，我们提出了一种相似性退出策略，以消除一些低质量的训练样本对，并在每个样本对中采用周期轨迹一致性损失来改进训练损失函数。在跟踪阶段，我们使用预先训练好的特征提取网络来提取特征，并利用孪生相关跟踪框架来单独使用前向跟踪来定位目标。大量的实验结果表明，所提出的自监督深度相关跟踪器（self-SDCT）与现有的先进的监督和无监督跟踪方法相比，取得了具有竞争力的跟踪性能。

1. INTRODUCTION

最近，跟踪器依赖于深度卷积神经网络（CNN），训练的手动注释图像具有良好的跟踪性能。然而，由于标记训练数据的数量有限，在基于深度学习的跟踪框架中训练一个高效的特征提取网络仍然是一个困难的问题。

基于深度CNN结构的跟踪方法近年来取得了显著的性能，在跟踪社区[1]-[5]中越来越受欢迎。通常，这些深cnn追踪器利用预先训练好的网络特征提取目的，然后使用相关性或相似性函数计算相似性得分模板样本和候选样本，之后他们选择得分最大的候选人作为对象目标在当前图像帧。虽然这些方法相对于基于手工制作的特征的跟踪器提高了性能，但不更新的在线跟踪限制了泛化能力。虽然一些跟踪器已经尝试使用深度网络进行特征表达，但当训练过程中目标未知时，需要通过执行随机梯度下降（SGD）来在线调整网络的权值，这显著影响跟踪速度[9]-[11]。在[12]中，贝蒂内托等人提出了一种SiamFC跟踪器，它专注于学习离线阶段的目标和候选对象的相似性函数，与同一时期的其他跟踪器相比，它取得了显著的跟踪性能。ECO [4]跟踪器在判别相关滤波器模型中引入因子分解卷积算子，并提出生成模型来增强样本多样性，可以提高跟踪精度和速度。

然而，这些基于cnn的深度追踪器有两个主要缺点。首先，特征提取网络需要大量的手动标注的样本来进行训练。这些人工标注的训练样本非常有限，获取它们也非常耗时又昂贵，这意味着基于有限标记样本的训练特征提取网络不能很好地表示目标特征。第二，这是大多数基于深度卷积网络的跟踪器需要一个多层网络来提取特征，并在在线跟踪阶段对其预先训练好的网络进行微调，从而导致计算复杂度较高。由于特征提取网络[7]、[9]、[13]的高维数，一些基于cnn的深度跟踪器无法实现实时跟踪速度。例如，MDNet [9]跟踪器需要预先训练一个深度CNN架构来完成相似度匹配任务。在跟踪阶段，MDNet跟踪器使用SGD策略来学习一个具有从当前序列中提取的候选序列的检测器。由于计算量高，该方法无法获得实时跟踪速度。如图1所示，计算开销阻止了具有深度特性的跟踪器实现实时性能（例如，SINT [2]、MCPF [14]和CREST [15]）。

图1OTB-100数据集和其他基于深度学习的SDCT跟踪器在OTB-100跟踪器上的跟踪速度和AUC得分。

为了解决上述两个问题，在本工作中，我们开发了一个鲁棒且高效的基于深度相关的跟踪器，其中包含两个关键组成部分：一个基于自监督学习的预训练深度特征提取网络和一个高效的深度相关跟踪框架。与大多数有监督和无监督的深度跟踪器不同，我们的自监督的self-SDCT跟踪器获得了具有竞争力的跟踪性能（见图1）。尽管有标记的训练样本的数量有限，但仍有大量的未标记的视频序列可用于自监督学习。基于这一观察结果，我们提出通过自监督学习来训练特征提取网络，以便只需要初始帧中目标的标签。在给出初始目标的基本真实情况后，我们使用相关滤波方法生成其他样本的伪标签，并使用周期一致性损失方法进行网络训练。大多数训练网络方法的循环一致性损失只是计算了经过前向-向后预测后的原始状态和最终状态之间的差值。与这些方法不同的是，我们的网络训练使用了多周期一致性损失，它同时考虑了最终结果（图4：最终损失）和中间结果（图4：中间损失）。多周期一致性可以提高特征提取网络的鲁棒性。此外，为了减轻低质量训练样本对的影响，我们提出了一种低相似度的退出策略来退出这些训练样本对。此外，通过目标的循环轨迹一致性，可以更好地区分目标和背景，从而减少了背景信息对特征提取网络的影响。低相似度退出策略和周期轨迹一致性损失策略都能有效地改进特征提取网络。与其他有监督跟踪方法（如CFNet [16]和SiamFC [12]）和无监督跟踪方法（如UDT [17]）相比，我们的self-SDCT跟踪器可以获得具有竞争力的跟踪结果（见图2）。

图2提出的self-SDCT跟踪器和其他有监督和无监督的跟踪器。

本文的主要贡献如下：

我们建立了一种基于多周期一致性损失的自监督学习方法来对深度特征提取网络进行预训练，它可以利用大量的未标记视频样本，而不是有限的人工标注样本。
我们利用多周期一致性损失、低相似度退出和周期轨迹一致性损失对特征提取网络进行预训练，有效提高表征能力，降低过拟合风险。
我们进行了广泛的实验评估，以证明我们的self-SDCT跟踪器与最先进的监督和无监督跟踪器的竞争力： OTB-2013 [18]，OTB-100 [19]，UAVDT [20]，TColor-128 [21]，和UAV-123 [22]。

2. RELATED WORKS

在本节中，我们将回顾一些关于深度相关跟踪算法、特征表示算法的自监督学习和时间序列中的循环一致性的相关文献。

A. Deep Correlation Tracking

基于深度相关结构的跟踪器越来越受到关注。基于孪生架构的跟踪方法将跟踪任务表述为一个互相关问题[2]，[12]，[16]，[23]-[26]。SINT [2]跟踪器提出训练一个孪生网络，通过寻找候选样本和初始目标之间的最大相似度来确定目标的位置。SiamFC [12]跟踪器集成了一个全卷积的跟踪任务网络，显示了离线训练特征提取网络强大的表示能力。目前，基于孪生网络的跟踪器[27]-[30]通过添加一个区域建议网络（RPN）模块来提高其跟踪精度。在[27]中，为了获得高精度和实时跟踪性能，Li等人提出了一种SiamRPN跟踪器，它可以放弃多尺度测试和在线微调。然而，SiamRPN跟踪器容易受到跟踪场景中类似物体的干扰，这将降低跟踪性能。得益于其在傅里叶域的公式，基于cf的跟踪器可以实现快速跟踪的速度[31]-[33]。因此，为了提高基于cf的跟踪器的跟踪性能，我们从尺度估计[34]、时空上下文[35]、[36]、学习模型[37]、非线性核[38]和边界效应[39]-[41]等不同方面进行了研究。受此启发，一些基于深度学习的跟踪方法尝试将相关滤波器作为其网络结构中的一个附加层，以实现更快的跟踪速度。CFNet [16]跟踪器将相关滤波器集成到基于孪生网络的跟踪框架中，并给出了一个封闭形式的解决方案。C-COT [42]跟踪器引入了训练连续卷积滤波器的有效表达式；此外，ECO [4]跟踪器提出了一个因子分解卷积算子，大大显著降低了C-COT [42]跟踪器的参数规模。然而，前者通常会给跟踪器带来较高的计算复杂度，使跟踪速度非常慢，而后者通常会由于标记的训练数据不足而产生一些不令人满意的跟踪结果。虽然网络结构的一些变化可以提高特征表示能力[43]-[46]，但标记训练数据的不足仍然是影响网络性能的主要制约因素。因此，与上述使用预先训练的特征提取网络的深度跟踪器和大量人工标记的训练样本不同，我们采用自监督学习方法，使用只需要初始目标groundtruth的训练数据来训练网络，就像跟踪任务所做的那样。

B. Self-supervised Learning for Feature Representation 基于特征表示的自我监督学习

从大量的视频或图像中学习特征表示已经被广泛的研究。Wu和Huang [47]提出了一种同时使用有监督和无监督训练数据的自监督学习方法。在此基础上，给出了一种能够自动选择良好分类特征的鉴别-em方法。人类视觉系统往往更关注运动信息；受这种情况的启发，Pathak等人[48]提出了一种基于运动的视频分割来获得特定的片段，然后将其作为伪标签来训练分割卷积网络。冯德里克等人的[49]认为视频着色是一个自监督的学习问题。该方法涉及到通过学习一个嵌入，然后将指定区域的参考区域复制到灰度图像中，来学习将颜色参考帧的一个区域与灰度帧的一个区域关联起来。这背离了其他使用现成的方法进行跟踪的方法，为培训[7]，[48]，[50]提供了一个监督信号。在[51]中，作者试图共同学习光流和跟踪，并因此指出这两个问题是互补的。Lai等人[52]提出了一种基于记忆的特征表示学习方法，可以保证帧间的像素级对应。我们的工作是受到UDT [17]的无监督表示学习方法的启发，该方法将跟踪算法集成到无监督训练中。我们使用一种自监督学习方法来训练我们的深度网络进行特征表示，该方法只需要一个初始的目标位置，而不需要任何额外的信息。我们用来训练深度特征提取网络的监督信息来自这些前向跟踪生成的伪标签。

C. Cycle Consistency in Time Series时间序列中的周期一致性

时间序列的循环一致性在许多文献[53]-[55]中得到了广泛的探讨。Wang等人[51]提出使用循环一致性来学习视觉表示，主要集中在光流中统一单一视频跟踪，以自监督学习方式实现更好的嵌入表示。Dwibedi等人[56]使用可微的时间周期一致性损失训练一个网络，在多个视频[57]中寻找跨时间的对应。Li等人[58]提出跟踪大型图像斑块，并建立连续视频帧之间的关联。作为时间序列中循环一致性的代表，前后一致性在跟踪任务中得到了广泛的应用。TLD [59]跟踪器提出了一个前后误差来估计跟踪轨迹的可靠性。通过对轨迹进行向后验证并与相关轨迹进行比较，对其跟踪结果进行了修正。MTA [60]跟踪器通过预测多个组件跟踪器的前向-向后一致性和通过最大鲁棒性评分来识别最佳跟踪器来执行前向跟踪。UDT [17]跟踪器重新访问前向-后向跟踪框架，并训练一个深度跟踪器使用一种无监督的方法。然而，上述时间序列中的循环一致性只关注最终结果；这可能会导致不准确的中间结果，而最终结果是准确的。因此，我们提出了一种多周期一致性的方法，同时考虑了前后跟踪过程中的中间跟踪结果，从而提高了跟踪性能。

3. 自监督的深度相关跟踪

我们的自监督跟踪器的架构如图3所示。

图3。self-SDCT架构的概述。我们使用孪生相关过滤器跟踪框架作为基线。特征提取网络在孪生相关框架下通过前后跟踪任务进行训练。一旦训练完成，我们就像其他基于孪生的追踪器一样，只使用前向跟踪来定位目标。

A. Revisiting Deep Correlation Tracker 回顾深度相关性跟踪器

我们使用鉴别相关滤波器框架进行前向后跟踪，生成训练样本对的伪标签。判别相关滤波器框架使用目标X及其标签Y来训练一个滤波器W：

由于标签Y是高斯形状，从数据X训练出来的滤波器W包含了高斯岭回归的系数。通过使用傅里叶变换来计算这个高斯岭回归模型，等式(1)可变为下式：

在跟踪阶段，在当前帧中裁剪出与X大小相同的图像斑块Z，f (Z)为图像patch Z的响应图，其响应分数可计算为：

一旦得到f (Z)，我们就可以选择f (Z)中响应值最大的位置作为目标中心，并将其作为标签中心，生成伪高斯标签。下一步是利用伪高斯标签和图像patch Z来训练新的滤波器，然后重复这些步骤，生成其他样本的伪高斯标签。最后，通过重复的前向跟踪改进特征提取网络。

B. Cycle Consistency Regression循环一致性回归

我们的工作是由时间上的前后一致性驱动的，这已被用于评估一些跟踪方法[59]，[60]的一致性。考虑到跟踪任务涉及到在给定初始地面真相后，预测和定位后续帧中目标的状态，我们提出了一种自监督学习方法，该方法使用大量的未标记数据对我们的特征提取网络进行预训练。在每个视频序列中，我们选择4个图像帧作为一个训练样本对。利用初始图像帧中的地面真相，我们使用孪生相关框架下的前向-向后跟踪方法来生成其他帧的伪标签，用于多周期一致性训练。为了进一步增强特征提取网络的能力，我们还使用了一个相似性函数来剔除一些低质量的训练对，并使用一个周期轨迹一致性损失来突出移动目标在训练过程中的作用。

1) Multi-Cycle Consistency Loss多周期一致性损失：

约定前向后跟踪只涉及最终跟踪结果；换句话说，前向向后跟踪只关心从第一帧开始，最后返回到第一帧的结果（图4：最终损失）。至于中间帧跟踪结果的准确性，目前的工作还没有直接涉及到。事实上，许多跟踪器在失去目标后很长一段时间后仍可能迁移到目标。然而，这种跟踪器的性能是不可接受的。因此，我们建议在前向后跟踪过程中同时考虑最终跟踪结果（图4：最终损耗）和中间帧结果（图4：中损耗）。因此，我们在训练阶段实现了一个多周期的一致性损失。图4概述了所提出的方法。多周期一致性损失可写成如下内容：

图4.所提出的多周期一致性损失的例子。多周期一致性损失不仅考虑了目标向前和向后移动的最终损失（最终损失），还考虑了移动中间的损失（中间损失）。

2) Low Similarity Dropout低相似度退出：

图5 (a)具有不同相似性的训练样本对的例子。剔除一些相似度较低的样本可以减少训练损失，避免过拟合。(b)循环轨迹一致性损失的例子。目标在运动过程中具有向前和后退的一致性。在相邻的图像帧中，移动部分比背景更有可能成为目标。

训练样本的质量也极大地影响了跟踪的特征学习。在训练数据集中，样本对可能包含具有不同相似性的目标（如图5(a)所示）。每个样本对的不同相似性样本都对训练过程有相同的影响，这影响了训练网络的表征能力。此外，如果训练样本对不能同时包含目标，这就对训练后的特征提取网络构成了致命的打击。因此，在训练过程中，我们考虑了每个训练对中样本之间的相似性，以提高特征提取网络的鲁棒性。高相似性表明样本对更重要；因此，我们在训练过程中保留了它。相似度较低的样本对可能不同时包含移动的对象，但将它们添加到训练过程中会削弱特征提取网络的表征能力。因此，我们考虑退出低相似度训练对来解决这一问题。每个训练对中样本的相似度可以计算为：

相似函数可以是欧几里得函数、马氏函数、余弦函数等。在本文中，我们使用欧几里得函数。为了保证这些训练样本的质量并避免过拟合，我们退出了10%的这些训练样本对：

fdrop表示退出条件，而α是由所有训练样本对的相似度排序结果和退出率决定的阈值。fvs = (fs (x, y1)+ fs (x, y2) + fs (x, y3))/3是每个样本对的平均相似度。在相似度最低的训练样本对减少10%的训练样本对后，我们的网络变得更适合于跟踪任务。

3) Cycle Trajectory Consistency Loss循环轨迹一致性损失：

除了样本对的相似性较低，会降低特征提取网络的性能外，在训练样本中包含大量的背景信息也会影响网络的性能。目标的运动轨迹可以有效地区分目标和背景[17]，[60]。更具体地说，目标从当前第t帧到下一个t+1帧的轨迹与从第t+1帧到第t帧的轨迹一致。同时，这两帧之间的相对目标位置也是一致的。在考虑了轨迹一致性后，我们设计了一个循环轨迹一致性损失Ltc，可以减少背景对跟踪性能的影响。因此，我们对所有的训练样本对建立了一个周期轨迹一致性损失Ltc。每个元素Li tc的计算方法如下：

其中，Li tc为第i个训练对样本的循环轨迹一致性损失，Lit→t+1是第i个训练对中第t帧到t+第1帧的周期轨迹一致性损失（见图5(b)），Rt是第t帧的标签，Rt+1是前向跟踪生成的第t+1帧的标签，Rt'是后向跟踪生成的第t帧的标签。

4) Cycle Consistency Regression Loss周期一致性回归损失：

考虑到多周期一致性损失、低相似度下降和周期轨迹一致性损失，我们的周期一致性回归目标函数可以写成：

其中Lcc为总周期一致性回归损失，Li cc为第i个训练对样本的周期一致性回归损失

此外，ε是一个用于确保分母不是0的参数（我们在本工作中设置了ε=1）。我们通过缩小同一图像帧的前后跟踪结果之间的差异来保证跟踪精度。此外，在目标的运动概率大于背景的情况下，我们通过增加相邻帧之间的差值来确定跟踪位置是目标，而不是背景。

C. Self-Supervised Training Details

1)网络结构：参考DCFNet [24]跟踪器和UDT [17]跟踪器，我们使用了一个只有两个卷积层的网络来提取特征，并在暹罗框架下跟踪目标。过滤器尺寸分别为3×3×3×32和3×3×32×32。由于特征提取网络中只有两个卷积层，因此该网络中的参数大小非常小。训练过程只需要30次迭代，模型就可以达到收敛性。因此，这种轻量级的网络（小于40KB）提供了具有竞争力的实时跟踪速度。

2)训练数据：我们选择ILSVRC2015 [61]作为我们的训练数据集，就像其他有监督的[12]、[16]、[24]和无监督的[17]跟踪器一样。然而，与监督跟踪器不同的是，我们不需要每个图像帧[16]，[24]的标签；相反，我们遵循无监督的UDT [17]跟踪器，它不对任何训练数据进行预处理，而只是在每一帧图像中裁剪中心补丁，并将其调整为125×125。对于每个图像视频，我们从连续帧中选择四个裁剪过的补丁，然后设置一个作为模板图像，另一个作为搜索图像。我们以模板图像中心的目标作为跟踪目标，并给出其groundtruth。

D. Model Update

为了适应跟踪阶段的目标外观变化，采用线性模型更新策略对相关滤波器参数进行更新：

其中，δ为学习速率，Wt为当前的相关滤波器。

4. EXPERIMENTS

我们首先介绍了一些实验细节和评价准则，然后分析了所提出的基于自无监督学习的预训练特征提取网络的各组成部分的有效性。最后，我们在OTB-2013 [18]、OTB-100 [19]、UAVDT [20]、TColor-128 [21]和UAV-123 [22]数据集上对我们的基于自监督学习的self-SDCT跟踪器以及一些最先进的有监督和无监督跟踪器进行了一些评估。

A. Experimental Details and Evaluation Criterion

1) Experimental Details: 我们遵循UDT [17]和DCFNet [24]，它们应用动量为0.9的随机梯度下降（SGD）来训练特征提取网络。权值衰减设置为5e-4，学习速率设置为1e-5。该网络被训练为30个时代，小批量规模为32个。模型更新学习率δ设置为0.025。我们的实验是在Matlab2019上，在i7 4.2 GHz CPU和NVIDIA GTX 2080Ti GPU上进行的。跟踪速度约为48帧/秒。

2) Evaluation Criterion: 我们主要使用精度和成功指数[62]来评估我们的自SDCT跟踪方法的跟踪性能，该方法被介绍在OTB基准[18]，[19]。精度指数是指在不同阈值下，预测位置和地面真实值的平均距离精度。同时，通过跟踪结果和地面真相的平均重叠来衡量成功指数，并使用曲线下面积（AUC）对跟踪器进行排序。此外，跟踪速度也是评价跟踪器的一个重要指标。

B. Ablation Study

C. State-of-the-Art Comparison

为了验证所提出的self-SDCT跟踪器，我们在标准基准数据集上进行了一些实验比较，包括OTB-100 [19]、UAVDT [20]、TColor-128 [21]和UAV-123 [22]。

D. Qualitative Comparison

我们将我们的基于自监督学习的self-SDCT跟踪器与其他最先进的跟踪方法进行了定性比较，包括UDT [17]、SiamFC [12]、CFNet [16]、DCFNet [24]和SiamTri [68]。图9显示了这些跟踪器在一些具有挑战性的视频序列上的比较结果。对于基于无监督学习的UDT [17]跟踪器，它很容易干扰遮挡和快速运动的场景（如矩阵和滑雪）。对这种缺陷的一种解释是，它采用了在无监督学习方法下使用单周期一致性损失训练的特征提取网络，这意味着它不能在一些复杂的场景中建模合适的目标外观。相比之下，所提出的self-SDCT跟踪器采用多周期一致性损失来训练特征提取网络，特征提取网络可以提取更鲁棒的特征。与SiamFC [12]和CFNet [16]等其他追踪器相比，我们的self-SDCT跟踪器也取得了一些竞争性的跟踪结果。与其他跟踪器相比，我们只有有限数量的标记数据和大量的自监督对来训练特征提取网络，我们的self-SDCT跟踪器仍然能够实现具有竞争力的跟踪性能。

5. CONCLUSION

我们提出了一种有效的基于多周期一致性损失的自监督学习方法来训练一个深度特征提取网络，而不需要大量的人工标记样本。在提出的self-SDCT跟踪器中，我们在基于孪生相关的跟踪框架下使用前向后预测来生成这些训练样本的伪标签；并采用多周期一致性损失训练特征提取网络。同时，我们提出了一种低相似度退出策略和周期轨迹一致性损失策略来提高特征提取网络的鲁棒性。消融研究验证了所提出的self-SDCT跟踪器中每个组件的有效性。此外，基于孪生相关的跟踪架构提供了一个更快的跟踪速度，这保证了所提出的self-SDCT跟踪器能够进行实时跟踪。大量的实验表明了我们提出的self-SDCT跟踪器的有效性。