S2SiamFC:自监督全卷积孪生网(论文翻译)

S2SiamFC: Self-supervised Fully Convolutional Siamese Network for Visual Tracking

S2SiamFC:自监督全卷积孪生网络的视觉跟踪

摘要

为了利用丰富的信息从未标记的数据,在这项工作中,我们提出了一个新颖的自监督的视觉跟踪框架能,通过利用图像和任何裁剪区域形成一个自然的训练对,从而可以很容易地将最先进的孪生网络有监督跟踪器调整为无监督跟踪器。除了常见的基于几何变换的数据增强和硬负挖掘外,我们还提出了对抗性掩蔽方法,通过自适应地模糊目标的突出区域,帮助跟踪器学习其他上下文信息该方法只使用图像进行离线训练,而不需要人工标注和来自多个连续帧的时间信息。因此,它可以用于任何类型的未标记数据,包括图像和视频帧。为了进行评估,我们以SiamFC作为基础跟踪器,并将所提出的自监督方法命名为S2SiamFC。在具有挑战性的VOT2016VOT2018数据集上进行了广泛的实验和消融研究,证明了所提方法的有效性,达到了与其监督对手和其他需要多帧的无监督方法相当的性能。

1.INTRODUCTION

视觉跟踪仍然是计算机视觉中最活跃和最重要的研究领域之一,其目标是通过给定的初始位置(例如,边界框注释)精确地预测连续帧中任意目标的位置。虽然目前已经开发了多种视觉跟踪模型,但由于遮挡、模糊、快速运动和变形的巨大变化,视觉跟踪仍然是一项持续的和具有挑战性的任务,这将显著影响跟踪性能。近年来,受益于深度卷积神经网络提取的丰富特征,特别是基于孪生网络的框架。然而,大多数这些现代跟踪者将这项任务视为一个有监督的学习问题,并假设有大规模的带注释的序列数据集是可用的。最近,最先进的方法利用几个数据集和数百万个逐帧注释的视频和预训练的权重来构建一个强鲁棒性的跟踪器;这忽略了一个事实,即收集这样的大规模注释数据集非常耗时和昂贵。

相反,在野外拍摄的未标记的图像或视频是天生可用的,而且这些数据的分布也比带注释的范围更广。此外,对于人类来说,学习如何跟踪的过程不应该依赖于语义对象(即:即使目标不是一个共同的语义对象,我们仍然可以捕获它独特的特征并跟踪它)。因此,我们提出了一种新的自监督视觉跟踪框架,该框架可以很容易地适应最先进的基于孪生网络监督的跟踪器,利用一个图像和它的任何裁剪区域可以形成一对自然的自我训练。与其他深度无监督学习方法不同,[43,48]通过利用移动对象的多帧间的时间一致性特征来训练模型,如图1a)所示,本文所提方法该方法可用于任何类型的未标记数据,包括图像、视频帧,如图1b)所示。仅使用未标记图像的优点是,它适用于当已标注的训练数据数量稀少且难以收集时的情况。与基于视频的无监督方法相比,该方法可以显著降低训练和数据收集的成本。此外,基于图像的自监督训练使得使用单幅图像的在线模型微调成为可能,可以以半监督跟踪的形式用于快速领域自适应。

1(a)通用无监督学习方法(b)本文提出的自监督学习方法。在(b)中,这些区域部分重叠,阳性样本用红色突出显示,阴性样本用黑色突出显示。

在本文中,我们采用SiamFC [2]作为我们的基础跟踪器,并将所提出的自监督SiamFC称为𝑆2SiamFC。我们提出了几种训练策略,可以揭示未标记图像的能力,超越其他无监督方法通常使用的未标记序列。一般来说,自监督跟踪的挑战是双重的。首先,在训练阶段,当我们随机裁剪一个区域图像作为我们的目标模板,然后扩展选择区域搜索图像训练对(即,目标仍在中心,这一事实可以作为地面groundtruth自我训练。),由于从同一图像中采样训练对的过程中存在随机性,这可能会导致一个关于“背景内容跟踪”的潜在问题。这些训练对可以都来自背景,而不携带任何有意义的信息。这将导致跟踪器的性能严重下降,因为跟踪器不能从这种嘈杂的训练对中学习到有用的信息。为了解决这个问题,我们提出了一种反杂波加权(AC),它可以通过确定一对训练样本是否提供信息来自适应地调整每个训练样本的权重。这样,我们就可以以一种自我监督的方式来减轻噪声训练对的优势地位。其次,自我监督跟踪是具有挑战性的,因为在训练阶段只能捕获有限数量的外观变化。为了充分利用丰富的信息,甚至是从一个单一的图像,我们利用对抗性学习的想法,在训练期间增强我们的训练数据。它通过自适应地模糊掉模板图像的显著区域,帮助跟踪器学习与目标相关的其他有用的上下文信息。此外,还采用了一些常见的数据增强技能和自监督学习的硬负挖掘来提高抗外观变化的性能。因此,所提出的跟踪器可以训练只使用单个的未标记图像,而不是使用连续的视频帧。

为了证明该方法的有效性,我们在具有挑战性的数据集VOT2016VOT2018上对其进行了评估,与其他基于监督学习的方法相比,它获得了具有竞争力的性能。与此同时,我们提供消融研究,分别说明各组件对最终跟踪性能的影响。本文的主要贡献总结如下:

  1. 提出了一种抗杂波加权方法,根据响应图中的信息调整每个训练样本的权重,有效抑制无意义训练对的效果。
  2. 提出的对抗掩蔽显著帮助模型学习改进的跟踪特征表示。
  3. 据我们所知,所提出的方法是第一个自监督对象跟踪器,它可以通过只使用图像进行有效的训练,而不需要使用顺序帧和预先训练的监督学习权重

2. RELATED WORK

基于孪生网络的跟踪器

SiamFC [2],贝蒂尼托等人提出了一种经典的架构,旨在以离线的方式学习目标对象和搜索区域之间的相似性函数;……..。然而,这些最先进的方法需要大规模的注释视频数据集来进行完全监督的训练。在这项工作中,我们提出了一种自我监督的方法只用图片来训练一个无标签的孪生网络跟踪器。

基于显著性映射的对抗性数据增强    

显著性图通常用于提供卷积神经网络(CNN)的视觉解释。Zhou等人[62]提出了针对特定的神经网络的类激活映射(CAM),它利用这些神经网络中的全局平均池化层的特征来生成显著性图。[35]通过反向传播将CAM扩展到任何CNNsGrad-CAM,并获得梯度信息来产生显著性映射。ACoL [59]AE-PSL [50]通过直接选择具有对抗性擦除的特征图来生成对象定位图。利用预测的注意图对图像进行裁剪和删除图像的特定区域来训练模型以提高性能。VITAL [36]采用了GAN [14]的思想,利用成本敏感损失来解决视觉跟踪中的类不平衡问题。A-Fast-RCNN [49]提出了一种对抗性网络来生成一些不常见的阳性样本,使模型在目标检测中具有鲁棒性。为了使我们的模型更加准确和鲁棒性,我们将这些技术[19,27,35,59,62]集成到我们的框架中,并将自监督方式与对抗性学习[19,27,49,59]相结合。虽然在其他任务[50]中也探索了类似的对抗性掩蔽策略,但据我们所知,我们是第一个引入它来改进自我监督设置中对象跟踪的外观表示学习。

无监督学习

该方法与无监督学习密切相关。[24]通过考虑时间信息,将视觉表示定义为排序序列任务。[42]提出通过在时间结构上的高级语义特征来预测动作和对象。UDT [43]提出了一种通过前向和向后分析得出的一致性损失的方法。[48]提出了利用各帧之间的半密集对应关系的时间周期一致性,而[29]通过联合进行区域级和细粒度匹配来学习视觉一致性。[52]建议在未标记的视频中生成各种经过排序的对象建议集来跟踪目标。[20]提出了运动显著性估计算法和目标分割的邻域图体系结构。[47]提出利用孪生三重网络和排名损失的KCF [18]跟踪器来学习视觉表示。所有这些工作都以一种无监督的方式处理任务,然而,它们中的大多数都使用视频中的连续帧作为他们的训练数据集。与之不同的是,我们提出的方法只能使用图像来训练对象跟踪器,而没有任何标签。

3. THE PROPOSED METHOD

在本节中,我们将介绍所提出的基于自监督孪生网络的跟踪器的细节,该跟踪器可以有效地离线训练,无需任何注释。为此,我们采用SiamFC [2]作为我们的基础跟踪器。我们的训练管道的概述如图2所示。对于无监督跟踪器[43],需要提供同一视频中的多个帧作为训练数据。与其他无监督和在线更新方法不同,我们只需要一个单一的图像来创建一个训练对。然后用我们提出的反杂波加权方法对训练对进行加权,并采用基于对抗性显著性图的数据增强方法来增加训练数据的多样性。换句话说,我们提出的方法的训练数据可以是任何基于图像的数据集,因为我们提出的方法不需要任何注释,也不依赖于时间关系;此外,我们的模型是以离线方式训练的。

2 该方法的训练管道主要包括两个阶段: 1)从同一幅图像中采样训练对,首先计算原始模板与搜索区域之间的损失。2)选择响应图中带有正标签的值,通过反向传播的方式计算通道显著性映射。选择其中一个阈值显著性映射对模板图像进行掩码,并将掩码模板再次输入网络,以学习外观鲁棒特征。“DW”表示具有深度级的卷积运算。

3.1 Fully-convolutional Siamese Network

3.2自监督跟踪

为了将有监督的基于孪生网络的跟踪器调整为自监督的跟踪器,我们可以利用图像及其任何裁剪区域形成自然的一对进行自采样。我们使用SiamFC作为我们的基础跟踪器,并提出了我们的𝑆2SiamFC与几种策略来揭示未标记图像的潜力。给定一个未标记的图像𝐼,我们从𝐼中随机选择一个区域𝑅𝑧作为模板,并放大以𝑅𝑧为中心的区域,得到相应的搜索区域𝑅𝑥。这样,我们就可以创建一个以搜索区域为中心的地面真标签𝑌,当它们位于中心的半径𝑟内时,将groundtruth真标签的元素设置为1

3.3 Anti-clutter Weighting

如图3所示,由于随机性,不能保证采样区域包含一些唯一的跟踪对象。所提出的反杂波加权的核心思想是由于自采样的随机性,对像图3(b)这样的训练对进行过滤,因为模板区域不包含任何线索(例如,没有唯一模式的背景)来学习相似性。因此,反杂波加权实际上是根据搜索区域(响应映射)中的模板区域的出现情况来执行重新加权的。我们的假设是,模板的内容可能只是一些无意义的对象,对于这些情况,响应映射的输出是平坦的,这个训练样本对于训练是不可靠的。相比之下,如果在模板中有一些具有独特模式的对象,如图3(a),那么这个训练对应该比前者更可靠(为我们提供了更多的学习线索),值得进一步关注。为此,我们提出了一种自适应加权策略,通过考虑响应图中相关响应的比例来确定每个训练样本的重要性。

图3关于“背景跟踪”的概念的说明。为了更好的可视化,预测的响应图被调整为255×255。(a)表示有意义的样本对,由于模板区域在搜索区域中是唯一的,因此预测响应图具有较少的大正值。(b)表示一个无意义的对,预测的响应图往往是平坦的(许多较大的正值),因为模板区域是搜索区域中的一个常见模式。

  , 

因此,我们可以将抗杂波损失函数表示如下

3.4 Adversarial Appearance Masking对抗性的外观掩蔽

有监督的SiamFC和所提出的自监督跟踪之间的主要区别之一是,SiamFC从同一视频中不同的注释帧中选择成对来学习外观鲁棒特征表示。在自监督的情况下,该模型只能从单一图像中捕获有限数量的目标外观变化。为了解决这一挑战,我们采用了对抗性的外观掩蔽,在训练阶段自适应地剔除显著性区域,使我们的模型对目标的外观变化更加鲁棒。它类似于细粒度的视觉分类解决方案[19],但我们采用了基于引导梯度的方法[27,35]来获得显著性映射,而不是在训练过程中学习一个注意模块。原因是显著性映射[19,27,35,59,62]可以给我们关于哪些区域是基于特定输出的信息。根据显著性图适当删除内容后,我们的模型可以在离线训练阶段以部分和对抗性的方式学习外观鲁棒特。

显著特征图的生成:Grad-CAM [35]的启发,我们提出通过从响应映射中为正的地面真实标签的位置进行反向传播,以自我引导的方式获得显著性映射[27,35,62]。与弱监督对象定位任务[27,35]不同,我们感兴趣的是每个过滤器的显著性映射,而不是全局显著性,因为这些显著性映射可以用来表示每个过滤器的最显著性区域。然后,我们选择其中一个显著性映射作为掩模,并迫使我们的模型学习目标的其他相关上下文信息。这样,当一些重要的细节不可用时,模型就会被迫正确地预测相似性。具体过程如图4所示。

4对抗性外观掩蔽模块

更准确地说,通过计算输出得分S相对于模板特征图z)(即主干网络最后一个卷积层的输出)的梯度,可以得到显著性图。

因此,我们首先从这些位置计算平均正响应值:

计算通道重要性权重:

显著性映射的计算方法是由:

外观屏蔽:然后,我们将显著性映射A向上采样到目标模板的原始大小,以获得细粒度的像素显著性映射,将整个映射中的每个值从01归一化,并使用阈值函数对低响应区域进行过滤。然后,我们随机选择一个具有显著区域的地图通道,并用这些区域掩蔽模板图像。掩蔽区域将被图像的平均颜色填充。因此,对抗性训练样本可以通过以下方法得到:

在这种情况下,模型将不仅仅关注对象的特定部分来确定它应该出现在搜索图像中的位置,相反,它将学习完整目标的全局细节,以准确地定位它。获得丢弃的图像后,可通过以下方法计算最终损耗:

其中λ控制了两个损失之间的比率,在我们的例子中设置为0.7。此外,我们还使用了常见的图像增强(例如,随机旋转,颜色抖动等)。来增强我们的数据集。

3.5 Hard Negative Mining by Feature Clustering基于特征聚类的硬负挖掘

为了进一步提高外观的鲁棒性,使模型在实践中对更复杂的场景具有鲁棒性,我们进行了硬负挖掘,从训练图像中找到更困难的情况,以便进行更好的模型训练,这在[64]中被证明是有效的。为此,通过K-means聚类将训练数据划分为𝐾组,而不是使用注释类别形成负对。我们认为由预训练的主干从自监督学习中提取的特征可以表达其特征,这可以帮助我们选择一个合理的硬负对进行训练。在第一个训练阶段,我们以一种自我监督的方式训练我们的模型,并获得一个预先训练好的主干网络的权重。然后,我们从训练数据集中的每个视频中选择一帧,并将其调整为255×255,然后将这些图像通过我们之前获得的预先训练的主干网络。在获得所有特征映射Φ(𝑋)后,我们将这些特征映射传播到全局平均池化层,并使用K-Means聚类将它们聚类为K个类,我们在所有实验中使用𝐾= 100。在第二个训练阶段,除了原始的正训练对外,我们还生成了一些模板和搜索图像来自同一类而不是来自同一图像的对,作为我们的硬负训练样本。

4. EXPERIMENTS

在本节中,我们提供了我们的实验设置的细节,并在具有挑战性的视觉跟踪数据集VOT2016 [21]VOT2018 [22]上进行了一些实验,以验证提出的𝑆2SiamFC跟踪器的有效性;此外,我们还进行了详细的消融研究,以评估每个提出的组件的贡献和半监督跟踪实验,该实验受益于我们的单图像训练。

4.1 Implementation Details

为了证明所提出的方法可以更好地利用未标记数据集的能力,并获得与其他监督方法相当的性能。我们采用相同的训练数据集,ILSVRC2015 VID [34],作为监督SiamFC [2],但没有任何注释,只使用每个视频的单帧。我们在IILSVRC2015 VID上训练我们的模型的原因是为了与有监督的SiamFC进行公平的比较。换句话说,这意味着所提出的方法可以与监督对应的方法竞争,即使它们都使用来自同一领域的训练数据。我们遵循在SiamFC中使用的其他设置,如量表评估和学习率。模板图像和搜索图像的大小分别调整为127×127255×255。由于我们的方法在推理阶段运行时与SiamFC完全相同,所以我们的运行速度也是作为SiamFC86 fps。在推理阶段,线性更新模板特征[41]作为𝜙𝑧𝑡+1=𝜆𝑢𝜙𝑧𝑡+1𝜆𝑢)∗𝜙𝑧𝑡1,,其中𝜆𝑢= 0.0102,可以进一步提高对挑战性场景的鲁棒性,因为线性更新可以为自监督的多帧在线)提供时间信息到自监督的SiamFC,以赶上有监督的SiamFC

4.2 Experiments on VOT

4.3 Ablation Studies

为了调查每个部分的影响,我们对VOT2018数据集进行了详细的消融研究。表3显示了每个策略的贡献的细节。我们将自监督基线与所提出的反杂波加权、硬负挖掘、对抗性外观掩蔽和线性更新进行了比较,分别表示为ACHNAMLU。我们可以观察到,所有所提出的策略在鲁棒性(R)和预期平均重叠(EAO)方面都提高了基线。如表2所示,采用表3中所有训练策略的𝑆2SiamFC,在EAO方面取得了竞争监督SiamFC的结果,证明了我们提出的策略可以很好地结合起来。采用所有模块后,精度下降的原因是由于VOT数据集的目标重新初始化机制。由于当跟踪失败发生时,模板将被重新初始化,因此重新初始化模板的特征将更类似于最新目标的状态,因此更容易得到更高的重叠预测(即更高的精度)。因此,我们更倾向于将EAO作为更好地理解的总体标准。我们得出每种策略的结果如下:

在离线训练的自监督学习中,该模型需要从同一图像中学习相似性。图5显示了我们在训练阶段采用的掩蔽图像的一些样本,它们有助于缓解自采样训练机制造成的负面影响,目的是学习被跟踪目标的其他相关上下文信息。我们还评估了表4中的多重掩蔽的性能。实验结果表明,对同一图像重复进行两次掩蔽操作的训练效果最好。其原因是,应用两次以上的掩蔽可能会导致消除大部分信息丰富的前景信息,并导致不稳定的训练。因此,我们在方法中对原始图像采用两次对抗掩蔽。

通过特征聚类进行硬负向挖掘。如图6所示,我们观察到同一簇中的训练图像在场景、色彩或物种的外观方面包含相似的视觉信息。从同一聚类中选择的硬负样本可以提供鉴别信息,帮助模型学习如何更好地区分干扰物。我们还评估了选择不同数量的集群的效果,并在表5中显示了它们。我们发现,所提出的硬负采矿法有效地提高了性能。结果与𝐾= 100一起获得最佳性能,大约有40个视频将被分组到同一个集群中。

5.结论

在本文中,我们提出了一种新的自监督框架,利用图像和任何裁剪区域可以形成一个自然的自我训练对。此外,不需要任何注释,该方法可以只用图像进行离线训练。所提出的反杂波加权自适应地调整每个训练对的贡献,以解决背景跟踪问题;我们通过将显著性映射与对抗性学习相结合,提出了对抗性外观掩蔽来解决目标缺乏外观变化等问题。以SiamFC为我们的骨干网络,我们已经证明,在具有挑战性的跟踪数据集,即VOT2016VOT2018上,我们可以实现与其他最先进的有监督和无监督方法相比的具有竞争力的性能。此外,我们认为像UDT这样的基于视频的无监督跟踪器和所提出的方法之间没有冲突。相反,由于所提出的方法可以使用未标记的图像进行训练,因此预训练的跟踪器可以用于视频的UDT设置。理想情况下,它允许他们使用更好的时间一致性约束,并将研究作为未来的工作。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值