Dasiamrpn论文中文翻译（详细！）

清雨夜NWC

于 2024-03-11 15:47:19 发布

阅读量754

点赞数 8

分类专栏：目标跟踪（SOT、MOT）文章标签：目标跟踪人工智能计算机视觉深度学习算法

本文链接：https://blog.csdn.net/m0_46493410/article/details/136625546

版权

目标跟踪（SOT、MOT）专栏收录该内容

5 篇文章 1 订阅

订阅专栏

Distractor-aware Siamese Networks for Visual Object Tracking

用于视觉对象跟踪的干扰器感知的Siamese网络

说明

建议对照Dasiamrpn原文阅读，翻译软件翻译出来的效果不好，整体阅读体验不佳，所以我对译文重新进行了整理，方便大家阅读研究。

【dasiamrpn论文地址】

https://arxiv.org/abs/1808.06048

摘要

近年来，Siamese网络因其平衡的准确性和速度而引起了视觉跟踪社区的广泛关注。然而，在大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景。语义背景总是被认为是干扰物，这阻碍了Siamese追踪器的鲁棒性。在本文中，我们关注学习干扰感知的Siamese网络，以准确和长期的跟踪。为此，我们首先分析了传统Siamese追踪器中使用的特性。我们观察到，训练数据的不平衡分布使学习到的特征的区别性降低。在离线训练阶段，引入了一种有效的抽样策略来控制这种分布，并使模型关注语义干扰物。在推理过程中，设计了一种新的干扰物感知模块来执行增量学习，它可以有效地将一般的嵌入转移到当前的视频领域。此外，我们通过引入一种简单而有效的局部到全局搜索区域策略，扩展了所提出的长期跟踪方法。在基准测试上的大量实验表明，我们的方法显著优于现有现状，在VOT2016数据集上产生9.6%的相对增益，在无人机20L数据集中产生35.9%的相对增益。拟议的跟踪器在短期基准上可以达到160帧/秒，在长期基准上可以达到110帧/秒。该代码可以在https://github.com/foolwood/DaSiamRPN上找到。

1 介绍

视觉目标跟踪是许多计算机视觉领域的一个基本问题，是视觉分析、自动驾驶和姿态估计中的基本定位。跟踪的一个核心问题是如何在具有遮挡、视外、变形、背景混乱和其他变化的具有挑战性的场景中准确有效地检测和定位物体。

近年来，Siamese网络采用相似度比较跟踪策略，由于具有良好的[31,8,2,36,33,7,37,16]性能而引起了视觉跟踪社区的广泛关注。SINT [31]，GOTURN [8]，SiamFC [2]和RASNet [36]学习了一个先验的深度Siamese相似度函数，并以一种运行时固定的方式使用它。CFNet [33]和DSiam [7]可以分别通过一个正在运行的平均模板和一个快速转换学习模块在线更新跟踪模型。SiamRPN [16]在Siamese网络之后引入了一个区域建议网络，从而将跟踪制定为一个一次性的局部检测任务。

虽然这些跟踪方法获得了平衡的精度和速度，但有3个问题需要解决：

1.首先，大多数Siamese跟踪方法中使用的特征只能区分前景和非语义背景。语义背景总是被认为是干扰物，当背景杂乱时，不能保证性能。

2.其次，大多数Siamese跟踪器不能更新[31,8,2,36,16]模型。尽管它们的简单性和固定模型的性质导致了高速，但这些方法失去了在线更新外观模型的能力，这对于解释在跟踪场景中出现的剧烈外观变化往往至关重要。

3.最近的Siamese追踪器采用了一种局部搜索策略，它不能处理完全遮挡和视野外的挑战。

在本文中，我们探索学习可感知干扰器的Siamese区域建议网络（DaSiamRPN），以实现准确和长期的跟踪。SiamFC使用加权损失函数来消除正、负例子的类不平衡。然而，它是低效的，因为训练过程仍然是由容易分类的背景例子所主导的。在本文中，我们发现训练数据中的非语义背景和语义干扰物的不平衡是表示学习的主要障碍。如图1所示，SiamFC上的响应图不能区分人，即使穿着白色衣服的运动员也能与目标人有很高的相似性。高质量的训练数据是端到端学习跟踪器成功的关键。我们得出结论，表示网络的质量在很大程度上依赖于训练数据的分布。除了从现有的大规模检测数据集中引入正对外，我们还在训练过程中明确地生成了不同的语义负对。为了进一步提高辨别，我们开发了一种有效的视觉跟踪定制数据增强策略。

经过离线训练后，表示网络可以很好地推广到大多数类别的对象，这使得跟踪一般目标成为可能。在推理过程中，经典的Siamese追踪器只使用最近邻搜索来匹配正模板，当目标经历显著的外观变化和背景混乱时，这可能会表现不佳。特别是，在上下文中出现的相似的外观物体（干扰物）使跟踪任务更加艰巨。为了解决这个问题，周围的上下文和时间信息可以提供关于目标的额外线索，并帮助最大化提高辨别能力。在本文中，设计了一种新颖的干扰物意识模块，可以有效地将一般的嵌入转移到当前的视频域，并在推理过程中逐步捕捉目标外观的变化。

此外，最近的跟踪器都是针对短期场景而定制的，即目标对象总是存在的。这些工作只关注于几十秒的短序列，这并不能代表从业者的需求。除了短期跟踪中具有挑战性的情况外，严重的视野和完全闭塞给长期跟踪带来了额外的挑战。由于传统的Siamese追踪器缺乏有区别的特征，并且采用了局部搜索区域，因此它们无法应对这些挑战。得益于DaSiamRPN中学习到的干扰物感知特征，我们通过引入一种简单而有效的局部到全局搜索区域策略，扩展了所提出的长期跟踪方法。这显著地提高了我们的跟踪器在看不见的地方和完全遮挡的挑战中的性能。

我们在广泛的短期和长期跟踪基准上验证了所提出的DaSiamRPN框架的有效性： VOT2016 [14]，VOT2017 [12]，OTB2015 [38]，UAV20L和UAV123 [22]。在短期VOT2016数据集上，与排名最高的方法ECO [3]方法相比，DaSiamRPN在预期平均重叠方面实现了9.6%的相对增益。在长期无人机20L数据集上，DaSiamRPN在曲线下面积上获得了61.7%，比目前性能最好的跟踪器高出35.9%。除了良好的性能，我们的跟踪器可以执行远远超过实时速度：在短期数据集上160 FPS，在长期数据集上110 FPS。所有这些一致的改进表明，所提出的方法建立了一个新的最先进的视觉跟踪。

1.1 贡献

本文的贡献可分为以下三个方面：

1、详细分析了传统Siamese跟踪器中使用的特性。我们发现，训练数据中的非语义背景和语义干扰物的不平衡是学习的主要障碍。

2、我们提出了一种新的干扰物感知Siamese区域建议网络（DaSiamRPN）框架，在离线训练中学习干扰物感知特征，并在在线跟踪推理过程中明确抑制干扰物。

3，我们扩展了DaSiamRPN，通过引入一种简单而有效的局部到全局搜索区域策略来执行长期跟踪，这显著提高了我们的跟踪器在视外和全遮挡挑战中的性能。在短期和长期视觉跟踪基准的综合实验中，所提出的DaSiamRPN框架在性能远远超出了实时速度的同时，获得了最先进的精度。

2 相关工作

Siamese Networks based Tracking.Siamese追踪器采用相似性比较跟踪策略。开创性的工作是SINT [31]。使用固定的运行时但学习先验深度Siamese相似函数，搜索与起始帧中最相似函数的候选样本。作为后续的工作，贝蒂内托等人提出了一个完全卷积Siamese网络（SiamFC）来估计两帧之间的特征相似性。RASNet [36]通过使用残差注意网络学习注意机制来推进这种相似性度量。与SiamFC和RASNet不同的是，在GOTURN跟踪器[8]中，连续帧之间的运动是使用深度回归网络来预测的。这三个跟踪器能够在GPU上分别以86 FPS、83FPS和100 FPS的速度执行，因为没有在线执行微调。CFNet [33]将相关滤波器解释为Siamese跟踪框架中的一个可微层，从而实现了端到端表示学习。但与SiamFC相比，性能的改进有限。流迹[40]利用Siamese体系结构中的运动信息来提高特征表示和跟踪精度。值得注意的是，CFNet和流轨可以有效地在线更新跟踪模型。最近，SiamRPN [16]通过在Siamese网络之后引入一个区域建议网络，将跟踪制定为一个一次性的局部检测任务，该网络采用大规模图像对进行端到端离线训练。

Features for Tracking.视觉特征在包括视觉跟踪在内的计算机视觉任务中起着重要的作用。[26]等人提出了一个干扰感知模型术语来抑制视觉干扰区域，而在他们的框架中使用的颜色直方图特征不如深度特征鲁棒。DLT [35]是一种使用多层自动编码器网络的开创性的深度学习跟踪器。该特性在80M微型图像数据集[32]上以无监督的方式进行预训练。Wang等人。[34]在一个视频存储库上学习了一个两层的神经网络，其中对特征学习施加了时间慢度约束。DeepTrack [17]从二值样本中学习两层CNN分类器，不需要预训练过程。UCT [39]将特征学习和跟踪过程定义为一个统一的框架，使学习到的特征与跟踪过程紧密耦合。

Long-term Tracking. 传统的长期跟踪框架可以分为两类：早期的方法将跟踪作为与几何模型[25,24,21]匹配的局部关键点描述符，最近的方法通过将短期跟踪器与检测器相结合来进行长期跟踪。后一类人的开创性工作是TLD [10]，它提出了一群无内存的流作为一个短期跟踪器和一个并行运行的基于模板的检测器。Ma等人[20]提出了KCF跟踪器和随机蕨类植物分类器的组合作为检测器，用于纠正跟踪器。类似地，MUSTer [9]是一个长期跟踪框架，它将KCF跟踪器与基于sift的检测器相结合，也用于检测遮挡。Fan和Ling [6]将DSST跟踪器[4]和CNN检测器[31]相结合，可以验证并潜在地纠正短期跟踪器的建议。

3 Distractor-aware Siamese Networks

3.1 Features and Drawbacks in Traditional Siamese Networks

在详细讨论我们提出的框架之前，我们首先重新审视传统的基于Siamese网络的跟踪[2,16]的特点。Siamese追踪器的核心是使用度量学习。其目标是学习一个嵌入空间，以最大限度地提高不同对象之间的类间惯性，并最小化同一对象的类内惯性。导致Siamese跟踪器的普及和成功的关键贡献是其平衡的准确性和速度。

图1显示了SiamFC和SiamRPN的响应图。可以看出，对于目标，那些背景差异较大的物体也得分较高，甚至一些无关的物体也得分较高。在SiamFC中获得的表示通常用于训练数据中类别的判别学习。在SiamFC和SiamRPN中，训练数据对来自同一视频的不同帧，每个搜索区域的非语义背景占多数，而语义实体和干扰物占较少。这种不平衡的分布使得训练模型难以学习实例级的表示，但却倾向于学习前景和背景之间的差异。

在推理过程中，使用最近邻来搜索搜索区域中最相似的对象，而省略在第一帧中标记的背景信息。可以有效地利用跟踪序列中的背景信息来提高识别能力，如图1e所示。为了消除这些问题，我们建议在离线训练过程中主动生成更多的语义对，并在在线跟踪中明确地抑制干扰物。

3.2 Distractor-aware Training

高质量的训练数据是视觉跟踪中端到端表示学习成功的关键。我们引入了一系列的策略来提高学习特征的泛化性，并消除训练数据的不平衡分布。

不同类别的正对可以促进泛化能力。原始的SiamFC是在ILSVRC视频检测数据集上进行训练的，该数据集只有大约4000个逐帧注释的视频[28]。最近，SiamRPN [16]探索使用稀疏标记的Youtube-BB [27]视频，该视频包含超过20万个视频，每30帧注释一次。在这两种方法中，目标训练数据来自同一视频的不同帧。然而，这些视频检测数据集只包含少数类别（20视频[28]，30Youtube-BB[27]），这不足以训练Siamese跟踪的高质量和广义的特征。此外，SiamRPN中的边界盒回归分支在遇到新的类别时可能会得到较差的预测。由于标记视频耗时且昂贵，在本文中，我们通过引入大规模的ImageNet检测[28]和COCO检测[18]数据集，极大地扩展了正对的类别。如图2(a)所示，通过增强技术（平移、调整大小、灰度等），可以利用检测数据集的静止图像生成用于训练的图像对。正对的多样性能够提高跟踪器的鉴别能力和回归精度。

图2：通过增强静止图像生成的(a)正对。来自同一类别的(b)负对。来自不同类别的(c)负向对。

语义负对可以提高其辨别能力。我们将SiamFC [2]和SiamRPN [16]中较差的区别性表示归因于两个水平的不平衡的训练数据分布。第一个不平衡是罕见的语义负对。由于背景在SiamFC和SiamRPN的训练数据中占了大部分，大多数负样本是非语义的（不是真实的对象，只是背景），它们很容易进行分类。也就是说，SiamFC和SiamRPN学习了前景和背景之间的差异，而语义对象之间的损失被大量简单的否定所淹没。另一个不平衡来自于类内干扰物，它们在跟踪过程中通常作为硬负样本执行。本文在训练过程中加入了语义负对。构建的负对由相同类别和不同类别的标记目标组成。来自不同类别的负对可以帮助跟踪器避免在视线之外和完全遮挡等挑战中漂移到任意对象。而来自相同类别的负对则使跟踪器专注于细粒度的表示。负例如图2(b)和图2(c)所示。

为视觉跟踪定制有效的数据增强。为了充分发挥Siamese网络的潜力，我们定制了几种数据增强策略。除了常见的平移、尺度变化和光照变化外，我们观察到运动模式可以很容易地由网络中的浅层来建模。我们在数据增强中明确地引入了运动模糊。

3.3 Distractor-aware Incremental Learning

最后一节的训练策略可以显著提高对离线训练过程的辨别能力。但是，仍然很难区分两个具有相似属性的对象，如图3a。SiamFC和SiamRPN使用一个余弦窗口来抑制干扰物。这样，当物体的运动很混乱时，性能就不能保证了。大多数现有的基于Siamese网络的方法在遇到快速运动或背景杂波时，性能较差。综上所述，潜在的缺陷主要是由于一般表示域和特定目标域的错位。在本节中，我们提出了一个干扰物感知模块，以有效地将一般表示转移到视频领域。

图3：我们提出的具有干扰者感知能力的Siamese地区建议网络（DaSiamRPN）的说明。DaSiamRPN充分利用了目标和背景信息，可以在跟踪过程中抑制干扰物的影响

Siamese跟踪器学习一个相似度度量f（z，x），在嵌入空间ϕ中将样本图像z与候选图像x进行比较：

✶表示两个特征图之间的互相关，b表示在每个位置都相等的偏差。将选择范例中最相似的对象作为目标。

为了充分利用标签信息，我们将目标环境下的硬负样本（干扰物）整合到相似性度量中。采用DaSiamRPN，即非最大抑制（NMS）来选择每一帧中潜在的干扰物，然后我们收

集一个干扰物集，其中，h为预定义的阈值，zt为第t帧中被选择的目标，该集合的个数为|D| = n。具体来说，我们首先在每一帧中得到17个∗17个∗5的提案，然后我们使用NMS来减少冗余的候选提案。我们将选择得分最高的提案作为目标zt。对于剩下的建议，分数大于阈值的建议被选择作为干扰物。

在此基础上，我们引入了一种新的干扰物感知目标函数，对与范例具有前k个相似性的建议P进行重新排序。最终选择的对象表示为q：

使用权重因子α来控制对干扰物学习的影响，使用权重因子αi来控制对每个干扰物di的影响。值得注意的是，通过直接计算，计算复杂度和内存使用量增加了n倍。由于式(1)中的互相关操作是一个线性算子，我们利用这个特性来加速干扰物感知的目标：

与SiamRPN相比，它使跟踪器能够以相当的速度运行。这一联想定律也激励我们以学习率βt逐步学习目标模板和干扰物模板：

这种具有干扰物感知的跟踪器可以将现有的相似度量（一般的）适应于一个新领域（特定的）的相似度量。权重因子αi可以视为稀疏正则化的对偶变量，在相关滤波器中，样本和干扰物可以视为正样本和负样本。实际上，一个在线分类器是在我们的框架中建模的。因此，所采用的分类器比仅使用一般相似度度量的分类器表现更好。

3.4 DaSiamRPN for Long-term Tracking

在本节中，DaSiamRPN框架被扩展为用于长期跟踪。除了短期跟踪的挑战性情况外，严重的看不见和完全遮挡给长期跟踪带来了额外的挑战，如图4所示。短期跟踪中的搜索区域（SiamRPN）在目标再次出现时不能覆盖目标，因此无法跟踪以下帧。我们提出了一种简单而有效的在短期跟踪相位和失效情况之间的切换方法。在失败的情况下，设计了一种迭代的局部到全局搜索策略来重新检测目标。

为了执行开关，我们需要识别失败跟踪的开始和结束。由于干扰物感知训练和推理能够实现高质量的检测分数，因此可以用来表示跟踪结果的质量。图4显示了SiamRPN和DaSiamRPN的检测分数和跟踪重叠。SiamRPN的检测分数没有指示性，即使在视野和完全遮挡下仍然很高。也就是说，SiamRPN倾向于在这些挑战中发现一个任意的目标，从而导致跟踪中的漂移。在DaSiamRPN中，检测分数成功地指示了跟踪阶段的状态。

在失败的情况下，我们通过局部-多叶策略逐步增加搜索区域。具体来说，当显示跟踪失败时，搜索区域的大小以恒定的步长迭代增长。如图4所示，局部-全局搜索区域覆盖目标，恢复正常跟踪。值得注意的是，我们的跟踪器使用边界盒回归来检测目标，因此可以丢弃耗时的图像金字塔策略。在实验中，所提出的DaSiamRPN可以在长期跟踪基准上执行110 FPS。

图4：视频人7超出视野挑战的跟踪结果。第一行：跟踪SiamRPN和DaSiamRPN的快照。第二行：检测得分和根据两种方法的重叠部分。重叠被定义为跟踪结果和地面真实值之间的交叉过并集（IOU）。红色：地面真相。绿色：跟踪框。蓝色：搜索区域框。

4实验

实验在广泛的具有挑战性的跟踪数据集上进行，包括VOT2015 [13]，VOT2016 [14]和VOT2017 [12]，每个都有60个视频，UAV20L[22]有20个长期视频， UAV123[22]有123个视频和OTB2015 [38]有100个视频。.所有的跟踪结果都由官方实现提供，以确保一个公平的比较。

4.1实验细节

使用ImageNet [28]预训练的改进的AlexNet [15]，如SiamRPN [16]中所述。前三个卷积层的参数是固定的，只有最后两个卷积层被微调。总共执行了50个学习周期，在日志空间中，学习率从10−2降低到10−4。我们从VID [28]和Youtube-BB [27]中提取图像对，方法是选择间隔小于100的帧，并执行第3.2节所述的作物程序。在ImageNet检测[28]和COCO检测[18]数据集中，通过增强静态图像生成图像对进行训练。为了在基准测试中处理灰色视频，25%的视频对在训练期间被转换为灰度。转换在12个像素内随机执行，随机调整大小的范围从0.85到1.15不等。

在推理阶段，式(2)中的干扰因子ˆα设置为0.5，每个干扰物的αi设置为1，式(4)中的增量学习因子βt设置为，其中η = 0.01。在长期跟踪中，我们发现局部到全局的一步迭代是足够的。具体来说，在短期阶段的搜索区域的大小和定义的失败情况的大小分别设置为255和767。进入和离开故障情况的阈值分别设置为0.8和0.95。我们的实验是使用PyTorch在一台电脑上实现的，NVIDIA i7,48G内存，NVIDIA TITAN X。提出的跟踪器在短期基准上可以以160 FPS的速度运行，在长期基准上可以以110 FPS的速度运行。该代码和实验结果可在https://github上获得。com/foolwood/DaSiamRPN.

4.2 State-of-the-art Comparisons on VOT UAC UAC123 OTB Datasets

这部分直接看原文比较好。

4.5消融分析

为了验证我们的算法中每个组件的贡献，我们实现并评估了我们的方法的四种变体。分析结果包括VOT2016 [14]上的EAO和无人机20L[22]上的AUC。如表2所示，SiamRPN是我们的基线算法。在VOT2016中，当在训练中添加检测数据时，EAO准则从0.344增加到0.368。同样，当在训练和推理中采用负对学习和干扰物感知学习时，两种表现都提高了近2%。在无人机20L中，检测数据、训练负对和干扰物感知推理中的负对获得了1%-2%的性能。当采用长期跟踪模块时，AUC准则从49.8%上升到61.7%。

5结论

在本文中，我们提出了一个干扰物感知的Siamese框架来准确和长期的跟踪。在离线训练过程中，提出了一种具有干扰物感知能力的特征学习方案，可以显著提高网络的识别能力。在推理过程中，设计了一种新的干扰物感知模块，有效地将一般的嵌入转移到当前的视频领域。此外，我们通过引入一种简单而有效的局部到全局搜索策略，扩展了所提出的长期跟踪方法。所提出的跟踪器在短期的综合实验和长期视觉跟踪基准测试中获得了最先进的精度，虽然整个系统的速度还远不是实时的。

清雨夜NWC

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Dasiamrpn论文中文翻译（详细！）

在本文中，我们关注学习干扰感知的Siamese网络，以准确和长期的跟踪。为此，我们首先分析了传统Siamese追踪器中使用的特性。我们观察到，训练数据的不平衡分布使学习到的特征的区别性降低。在离线训练阶段，引入了一种有效的抽样策略来控制这种分布，并使模型关注语义干扰物。在推理过程中，设计了一种新的干扰物感知模块来执行增量学习，它可以有效地将一般的嵌入转移到当前的视频领域。此外，我们通过引入一种简单而有效的局部到全局搜索区域策略，扩展了所提出的长期跟踪方法。在基准测试上的大量实验表明，我们的方法显著优于现有现
复制链接

扫一扫

专栏目录