【论文学习】《Distractor-aware Siamese Networks for Visual Object Tracking》2018年 DaSiamRPN 干扰感知孪生网络实现目标跟踪

豹击长空

已于 2025-04-03 15:43:43 修改

阅读量1.2k

点赞数 17

分类专栏：目标跟踪文章标签：论文阅读目标跟踪人工智能

于 2024-08-29 09:58:32 首次发布

本文链接：https://blog.csdn.net/SkyLeopard/article/details/141663734

版权

目标跟踪专栏收录该内容

5 篇文章

订阅专栏

DaSiamRPN出自中科院自动化研究所，计算机视觉高地，与SiamRPN一同参加了VOT-18的比赛，VOT-18赢得了“VOT-18实时”挑战，进了名单。在“VOT-18长期”挑战赛中获得第二名。然而他属于SiamRPN改进一种，比SiamRPN稍复杂了一点，不那么优雅了，干扰感知、数据增强部分方法是大伙儿都可以复用的。

概述：

前面提到SiamFC通过端到端的孪生全卷积在多尺度下一次性计算出目标可能位置中心点；SiamRPN则是借鉴了优秀的RPN方法，一个分支输出候选框类别，同时，另一分支输出候选框边界坐标，从而因没有多尺度而减少计算耗时，精度大大提升了。SiamRPN主要探索的孪生与区域候选的结合，因此数据集上的优化并未涉及，另外具体任务是聚焦在短期跟踪上。DaSiamRPN则在SiamRPN基础进行了：1、引入有效的抽样策略来控制不平衡的样品分布。2、设计一种新颖的干扰感知模块来执行增量学习（将一般嵌入转移到当前视频域）。3、进行长期跟踪扩展。

我理解的名词解释：

非语义背景：不需要理解语义关系就可以辨别出前景的背景。比如：一个目标人物站在空旷或拥挤的马路上，你不需要怎么思考和理解，立马能找到和定位目标人物。

语义背景：了解了非语义背景，那么就很容理解语义背景，相反的。比如：一群人在过马路，你要定位目标人物，你可能需要进一步的语义信息，比如：穿白色上衣的是目标或男的是目标，需要利用一些语义信息才能把目标区分出来。此时，除目标人物意外的人，都是语义背景，是干扰。

【一、翻译部分】

摘要

最近，孪生网络因其平衡的准确性和速度而在视觉跟踪社区中引起了极大的关注。然而，大多数孪生跟踪方法中使用的特征只能区分前景和非语义背景。语义背景始终被视为干扰因素，这阻碍了孪生跟踪器的鲁棒性。在本文中，我们专注于学习干扰感知的孪生网络以实现准确和长期的跟踪。为此，首先分析了传统孪生跟踪器中使用的特征。我们观察到训练数据的不平衡分布使得学习到的特征缺乏判别力。在离线训练阶段，引入了一种有效的采样策略来控制这种分布并使模型专注于语义干扰因素。在推理过程中，设计了一个新颖的干扰感知模块来执行增量学习，可以有效地将一般嵌入转移到当前视频域。此外，我们通过引入一种简单但有效的局部到全局搜索区域策略扩展了所提出的长期跟踪方法。大量基准测试表明，我们的方法明显优于最先进的方法，在 VOT2016 数据集中获得了 9.6% 的相对增益，在 UAV20L 数据集中获得了 35.9% 的相对增益。所提出的跟踪器在短期基准测试中可以达到 160 FPS，在长期基准测试中可以达到 110 FPS。

关键词：视觉跟踪，干扰感知，孪生网络

1 引言

视觉目标跟踪是在变化的视频序列中自动定位指定目标，是视觉分析、自动驾驶和姿态估计等许多计算机视觉主题中的一个基本问题。跟踪的核心问题是如何在具有遮挡、视野外、变形、背景杂乱等变化的具有挑战性的场景中准确有效地检测和定位对象[38]。

最近，采用相似性比较策略进行跟踪的孪生网络因其良好的性能而在视觉跟踪社区中引起了极大的关注[31, 8, 2, 36, 33, 7, 37, 16]。SINT[31]、GOTURN[8]、SiamFC[2] 和RASNet[36]学习先验深度孪生相似度函数并在运行时固定使用它。CFNet[33]和DSiam[7]可以分别通过运行平均模板和快速变换学习模块在线更新跟踪模型。SiamRPN[16]在孪生网络之后引入了区域候选网络，从而将跟踪制定为单样本局部检测任务。

虽然这些跟踪方法获得了平衡的精度和速度，但仍有3个问题需要解决：首先，大多数孪生跟踪方法中使用的特征只能区分前景和非语义背景。语义背景始终被视为干扰因素，当背景混乱时无法保证性能。其次，大多数孪生跟踪器无法在线更新模型[31, 8, 2, 36, 16]。虽然它们的简单性和固定模型特性可以提高速度，但这些方法失去了在线更新外观模型的能力，而这通常对于解释跟踪场景中剧烈的外观变化至关重要。第三，最近的孪生跟踪器采用局部搜索策略，无法处理完全遮挡和视野外的挑战。

**图1：**孪生网络追踪器响应热力图的可视化。 (a) 显示搜索图像。 (b-e) 显示由SiamFC、SiamRPN、SiamRPN+（使用干扰项训练）和DaSiamRPN生成的热力图。

在本文中，我们探索学习干扰感知孪生区域候选网络（DaSiamRPN）以实现准确和长期的跟踪。SiamFC使用加权损失函数来消除正例和负例的类别不平衡。然而，它效率低下，因为训练过程仍然由容易分类的背景示例主导。在本文中，我们发现训练数据中非语义背景和语义干扰项的不平衡是表示学习的主要障碍。如图1所示，SiamFC上的响应图无法区分人，即使身穿白色衣服的运动员也能与目标人物有很高的相似度。高质量的训练数据对于端到端学习跟踪器的成功至关重要。我们得出结论，表示网络的质量在很大程度上取决于训练数据的分布。除了从现有的大规模检测数据集中引入正例对之外，我们还在训练过程中明确生成不同的语义负例对。为了进一步鼓励区分，我们开发了一种针对视觉跟踪定制的有效数据增强策略。

经过离线训练后，表示网络可以很好地推广到大多数类别的物体，从而可以跟踪一般目标。在推理过程中，经典的孪生跟踪器仅使用最近邻搜索来匹配正模板，当目标发生显著的外观变化和背景混乱时，这种方法可能会表现不佳。特别是，如果环境中存在相似的物体（干扰物），则跟踪任务更加艰巨。为了解决这个问题，周围的环境和时间信息可以提供有关目标的额外线索，并有助于最大限度地提高辨别能力。本文设计了一种新颖的干扰物感知模块，它可以有效地将一般嵌入转移到当前视频域，并在推理过程中逐步捕捉目标外观变化。

此外，大多数最新的跟踪器都是针对短期场景量身定制的，其中目标物体始终存在。这些工作仅关注几十秒的短序列，不能很好地代表从业者的需求。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡也会给长期跟踪带来额外的挑战。由于传统的孪生跟踪器缺乏判别特征并采用局部搜索区域，因此无法应对这些挑战。受益于DaSiamRPN中学习到的干扰感知特征，我们通过引入一种简单而有效的局部到全局搜索区域策略，扩展了所提出的长期跟踪方法。这显著提高了我们的跟踪器在视野外和完全遮挡挑战中的表现。

我们在大量短期和长期跟踪基准上验证了DaSiamRPN框架的有效性：VOT2016[14]、VOT2017[12]、OTB2015[38]、UAV20L和 UAV123[22]。在短期VOT2016数据集上，与排名第一的方法ECO[3]相比，DaSiamRPN在预期平均重叠方面实现了9.6%的相对增益。在长期UAV20L数据集上，DaSiamRPN的曲线下面积获得了61.7%，比目前表现最好的跟踪器高出35.9%。除了良好的性能之外，我们的跟踪器还可以以远超实时速度运行：短期数据集上为160FPS，长期数据集上为110FPS。所有这些持续的改进表明，所提出的方法在视觉跟踪领域建立了新的最先进水平。

1.1 贡献

本文的贡献可以概括为以下三个方面：1、详细分析了传统孪生跟踪器所使用的特征。我们发现训练数据中非语义背景和语义干扰项的不平衡是学习的主要障碍。2、我们提出了一种新颖的干扰项感知孪生区域候选网络（DaSiamRPN）框架，以在离线训练中学习干扰项感知特征，并在在线跟踪推理期间明确抑制干扰项。3、我们通过引入一种简单而有效的局部到全局搜索区域策略来扩展 DaSiamRPN以执行长期跟踪，这显着提高了我们的跟踪器在视野外和完全遮挡挑战中的性能。在短期和长期视觉跟踪基准的综合实验中，提出的DaSiamRPN框架获得了最先进的精度，同时性能远超实时速度。

2 相关工作

基于孪生网络的跟踪。孪生跟踪器遵循相似性比较策略进行跟踪。开创性的工作是SINT[31]，它只是使用深度孪生相似性函数（参数运行时固定，学习先验训练中得来）来搜索与起始帧中给出的样本最相似的候选者。作为后续工作，Bertinetto等人[2]提出了一个完全卷积孪生网络 (SiamFC) 来估计两帧之间区域特征相似性。RASNet[36]通过使用残差注意网络学习注意机制来推进这种相似性度量。与SiamFC和RASNet不同，在GOTURN跟踪器[8]中，使用深度回归网络预测连续帧之间的运动。这三个跟踪器在GPU上分别能够以86FPS83FPS和100FPS的速度运行，快速的原因没有在线进行微调。CFNet[33]将相关滤波器解释为孪生跟踪框架中的可微层，从而实现了端到端表示学习。但与SiamFC相比，性能改进有限。FlowTrack[40]利用孪生架构中的运动信息来改善特征表示和跟踪精度。值得注意的是，CFNet和FlowTrack可以有效地在线更新跟踪模型。最近，SiamRPN[16] 通过在孪生网络之后引入区域候选网络，将跟踪制定为一次性局部检测任务，该网络使用大规模图像对进行端到端离线训练。

跟踪特征。视觉特征在包括视觉跟踪在内的计算机视觉任务中起着重要作用。Possegger等人[26]提出了一个干扰感知模型来抑制视觉干扰区域，而其框架中使用的颜色直方图特征不如深度特征那么稳健。DLT[35]是一种开创性的深度学习跟踪器，它使用多层自动编码器网络。该特征以无监督的方式在80M Tiny Image数据集[32]的一部分上进行预训练。Wang等人[34]在视频存储库上学习两层神经网络，其中对特征学习施加了时间缓慢性约束。DeepTrack[17]从二进制样本中学习两层CNN分类器，不需要预训练过程。UCT[39]将特征学习和跟踪过程制定成一个统一的框架，使学习到的特征与跟踪过程紧密耦合。（该段感觉讲的不是很清楚，得自己深入挖掘。个人认为这个相关工作应该提一提别人方法的不足之处）

长期跟踪。传统的长期跟踪框架可以分为两类：早期方法将跟踪视为与几何模型匹配的局部关键点描述符[25, 24, 21]，而最近的方法则通过将短期跟踪器与检测器相结合来执行长期跟踪。后一类的开创性工作是TLD[10]，它提出了无记忆的流群作为短期跟踪器和并行运行的基于模板的检测器。Ma 等人[20]提出将KCF跟踪器和随机蕨类分类器组合作为检测器，用于校正跟踪器。类似地，MUSTer[9]是一个长期跟踪框架，它将KCF跟踪器与基于SIFT的检测器相结合，该检测器也用于检测遮挡。Fan和Ling[6]将DSST跟踪器[4]与CNN检测器[31]相结合，以验证并可能校正短期跟踪器的提议。

3 干扰感知孪生网络

3.1 传统孪生网络的特点和缺点

在详细讨论我们提出的框架之前，我们首先回顾一下基于传统孪生网络的跟踪的特征[2,16]。孪生跟踪器的核心是度量学习。目标是学习一个嵌入空间，可以最大化不同对象之间的类间惯性，并最小化同一对象的类内惯性。孪生跟踪器受欢迎和成功的关键因素是其平衡的准确性和速度。

图 1：孪生网络追踪器响应热图的可视化。 (a) 显示搜索图像。 (b-e) 显示由 SiamFC、SiamRPN、SiamRPN+（使用干扰项训练）和 DaSiamRPN 生成的热图。 — 图 1：孪生网络追踪器响应热图的可视化。 (a) 显示搜索图像。 (b-e) 显示由SiamFC、SiamRPN、SiamRPN+（使用干扰项训练）和DaSiamRPN生成的热图。

图1为SiamFC与SiamRPN的响应图可视化。可以看出，对于目标，与背景差异较大的目标也能获得高分，甚至一些无关物体也能获得高分。SiamFC中获得的表示通常服务于训练数据中类别的判别学习。在SiamFC和SiamRPN中，成对的训练数据来自同一视频的不同帧，对于每个搜索区域，非语义背景占多数，而语义实体和干扰项占较少。这种不平衡的分布使得训练模型很难学习到实例级的表示，而倾向于学习前景和背景的差异。

在推理过程中，使用最近邻在搜索区域中搜索最相似的对象，同时忽略第一帧中标记的背景信息。可以有效利用跟踪序列中的背景信息来提高判别能力，如图1e所示。

为了消除这些问题，我们建议在离线训练过程中主动生成更多的语义对，并明确抑制在线跟踪中的干扰因素。

3.2 干扰感知训练

高质量的训练数据对于视觉跟踪中端到端表征学习的成功至关重要。我们引入了一系列策略来提高学习特征的泛化能力并消除训练数据的不平衡分布。

图 2：(a) 通过增强静态图像从检测数据集生成的正对。(b) 来自同一类别的负对。(c) 来自不同类别的负对。

正例对的多样化类别可以提升泛化能力。原始SiamFC在ILSVRC视频检测数据集上训练，该数据集仅包含大约4,000个逐帧注释的视频[28]。最近，SiamRPN[16]探索使用稀疏标记的Youtube-BB [27] 视频，该数据集包含每30帧注释一次的200,000多个视频。在这两种方法中，训练数据的目标对来自同一视频的不同帧。然而，这些视频检测数据集仅包含少数类别（VID[28] 为20个，Youtube-BB[27]为30个），不足以为孪生跟踪训练高质量和广义的特征。此外，SiamRPN中的边界框回归分支在遇到新类别时可能会得到较差的预测。由于标记视频耗时且成本高昂，本文通过引入大规模ImageNet检测[28]和COCO检测[18]数据集，大大扩展了正对的类别。如图2(a) 所示，通过增强技术（平移、调整大小、灰度等），检测数据集中的静态图像可用于生成用于训练的图像对。正对的多样性能够提高跟踪器的判别能力和回归精度。

语义负样本对可以提高判别能力。我们将SiamFC[2]和SiamRPN[16]中判别性较差的表示归因于两级不平衡的训练数据分布。第一个不平衡是语义负样本对稀少。由于背景在SiamFC和SiamRPN 的训练数据中占大多数，大多数负样本都是非语义的（不是真实物体，只是背景），并且可以轻松进行分类。也就是说，SiamFC和SiamRPN学习了前景和背景之间的差异，而语义对象之间的损失被大量容易分类的负样本所淹没。另一个不平衡来自类内干扰项，它们在跟踪过程中通常表现为硬负样本。在本文中，将语义负样本对添加到训练过程中。构建的负样本对由同一类别和不同类别的标记目标组成。来自不同类别的负样本对可以帮助跟踪器避免在视野外和完全遮挡等挑战中漂移到任意物体，而来自同一类别的负样本对使跟踪器专注于细粒度表示。负样本如图2(b)和图2(c)所示。

为视觉跟踪定制有效的数据增强。为了充分发挥孪生网络的潜力，我们定制了几种数据增强策略进行训练。除了常见的平移、尺度变化和光照变化外，我们观察到运动模式可以通过网络中的浅层轻松建模。我们在数据增强中明确引入了运动模糊。

3.3 干扰感知增量学习

图3：我们提出的干扰感知孪生区域提议网络(DaSiamRPN)的示意图。DaSiamRPN充分利用了目标和背景信息，可以抑制跟踪过程中干扰因素的影响。 — 图3：我们提出的干扰感知孪生区域候选框网络(DaSiamRPN)的示意图。DaSiamRPN充分利用了目标和背景信息，可以抑制跟踪过程中干扰因素的影响。

上一节中的训练策略可以显著提高离线训练过程中的判别能力。然而，仍然很难区分两个具有类似属性的物体，如图3a所示。SiamFC和SiamRPN使用余弦窗口来抑制干扰项。这样，当物体运动混乱时，性能就无法保证。大多数现有的基于孪生网络的方法在遇到快速运动或背景混乱时性能较差。总之，潜在的缺陷主要是由于一般表示域和特定目标域的错位造成的。在本节中，我们提出了一个干扰项感知模块，以有效地将一般表示转移到视频域。

孪生跟踪器学习相似度度量 $f\left ( z,x \right )$ ，以将示例图像 $z$ 与嵌入空间 $\varphi$ 中的候选图像 $x$ 进行比较：

$f\left ( z,x \right )=\varphi \left ( z \right )\star \varphi \left ( x \right )+b\cdot 1$ (1)

其中 $\star$ 表示两个特征图之间的互相关， $b\cdot 1$ 表示在每个位置上都相等的偏差。与样本最相似的对象将被选为目标。

为了充分利用标签信息，我们将目标上下文中的硬负样本（干扰项）融入到相似度度量中。在 DaSiamRPN中，采用非极大值抑制（NMS）在每帧中选取潜在干扰项 $d_{i}$ ，然后收集干扰项集合 $D:=\left \{ \forall d_{i} \in D,f\left ( z,d_{i} \right ) >h\cap d_{i}\neq z_{t} \right \}$ ，其中 $h$ 是预定义阈值， $z_{t}$ 是在第 $t$ 帧中选取的目标，该集合的数量 $\left | D \right |=n$ 。具体而言，我们首先在每帧中得到17∗17∗5 个候选框，然后使用 NMS减少冗余候选框。得分最高的候选框将被选为目标 $z_{t}$ 。对于剩余的候选框，得分大于阈值的候选框将被选为干扰项。

之后，我们引入了一种新颖的干扰项感知目标函数，对与样例具有前 $k$ 个相似度的候选框 $P$ 进行重新排序。最终选定的对象表示为 $q$ ：

$q=\arg max_{p_{k}\in P} f\left ( z,p_{k} \right )-\frac{\hat{\alpha }\sum_{i=1}^{n} \alpha _{i}f\left ( d_{i},p_{k} \right )}{\sum_{i=1}^{n}\alpha _{i}}$ (2)

权重因子 $\hat{\alpha}$ 控制干扰项学习的影响，权重因子 $a_{i}$ 用于控制每个干扰项 $d_{i}$ 的影响。值得注意的是，直接计算会使计算复杂度和内存使用量增加 $n$ 倍。由于等式(1)中的互相关运算是线性算子，我们利用此属性来加速干扰项感知目标：

$q=\arg max_{p_{k}\in P}\left ( \varphi \left ( z \right ) -\frac{\hat{\alpha }\sum_{i=1}^{n}\alpha _{i}\varphi \left ( d_{i} \right )}{\sum_{i=1}^{n}\alpha _{i}} \right )\star \varphi \left ( p_{k} \right )$ (3)

它使跟踪器能够以与SiamRPN相当的速度运行。这个联想定律还启发我们以学习率 $\beta _{t}$ 逐步学习目标模板和干扰模板：

$q_{T+1}=\arg max_{p_{k}\in P}\left ( \frac{\sum_{t=1}^{T} \beta_{t}\varphi \left ( z_{t} \right ) }{\sum_{t=1}^{T}\beta_{t}} - \frac{\sum_{t=1}^{T} \beta _{t} \hat{\alpha} \sum_{i=1}^{n}\alpha _{i}\varphi \left ( d_{i},t \right )}{\sum_{t=1}^{T}\beta _{t}\sum_{i=1}^{n}\alpha _{i}} \right )\star\varphi \left ( p_{k} \right )$ (4)

这种干扰项感知跟踪器可以将现有的相似性度量（一般）调整为新领域（特定）的相似性度量。权重因子 $\alpha _{i}$ 可以看作具有稀疏正则化的对偶变量，而样例和干扰项可以看作相关过滤器中的正样本和负样本。实际上，我们的框架中建立了一个在线分类器模型。因此，所采用的分类器预计会比仅使用一般相似性度量的分类器表现更好。

3.4 DaSiamRPN用于长期跟踪

图4：视野外挑战中视频人物7的跟踪结果。第一行：SiamRPN和DaSiamRPN的跟踪快照。第二行：两种方法的检测分数和相应的重叠。重叠定义为跟踪结果和地面真相之间的交并比 (IOU)。红色：地面真相。绿色：跟踪框。蓝色：搜索区域框。

本节将DaSiamRPN框架扩展为长期跟踪。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡也给长期跟踪带来了额外的挑战，如图4所示。短期跟踪（SiamRPN）中的搜索区域在目标重新出现时无法覆盖目标，因此无法跟踪后续帧。我们提出了一种简单而有效的短期跟踪阶段和失败情况之间的切换方法。在失败情况下，设计了一种迭代的从局部到全局的搜索策略来重新检测目标。

为了进行切换，我们需要确定跟踪失败的开始和结束。由于干扰感知训练和推理能够实现高质量的检测分数，因此可以采用它来指示跟踪结果的质量。图4显示了SiamRPN和DaSiamRPN中的检测分数和相应的跟踪重叠。SiamRPN 的检测分数不具有指示性，即使在视野之外和完全遮挡的情况下仍然可以很高。也就是说，SiamRPN倾向于在这些挑战中找到任意的物体，从而导致跟踪漂移。在DaSiamRPN中，检测分数成功地表明了跟踪阶段的状态。

在失败的情况下，我们通过从局部到全局的策略逐渐增加搜索区域。具体而言，当指示跟踪失败时，搜索区域的大小以恒定步长迭代增长。如图4所示，从局部到全局的搜索区域覆盖目标以恢复正常跟踪。值得注意的是，我们的跟踪器采用边界框回归来检测目标，因此可以丢弃耗时的图像金字塔策略。在实验中，提出的DaSiamRPN在长期跟踪基准上可以达到110FPS。

4 实验

实验在大量具有挑战性的跟踪数据集上进行，包括VOT2015[13]、VOT2016[14]和VOT2017[12]，每个数据集包含60个视频，UAV20L[22]包含20个长期视频，UAV123[22]包含123个视频，OTB2015[38]包含100个视频。所有跟踪结果均由官方实现提供，以确保公平比较。

4.1 实验细节

按照SiamRPN[16]中的描述，使用经过修改的AlexNet[15]进行预训练。前三个卷积层的参数是固定的，只有最后两个卷积层经过微调。总共进行了50个时期，学习率在对数空间中从 $10^{-2}$ 降低到 $10^{-4}$ 。我们从VID[28]和Youtube-BB[27] 中提取图像对，选择间隔小于100的帧并执行第3.2节所述的裁剪程序。在ImageNet Detection[28] 和COCO Detection[18]数据集中，通过增强静止图像来生成图像对进行训练。为了处理基准中的灰色视频，25%的对在训练期间转换为灰度。平移在12个像素内随机执行，随机调整大小的范围从0.85到1.15不等。

在推理阶段，方程（2）中的干扰因子 $\hat{a}$ 设置为0.5，每个干扰因子的 $a_{i}$ 设置为1，方程（4）中的增量学习因子 $\beta _{t}$ 设置为 $\sum_{i=0}^{t-1}\left ( \frac{\eta}{1-\eta} \right )^{i}$ ，其中 $\eta =0.01$ 。在长期跟踪中，我们发现从局部到全局的一步迭代就足够了。具体而言，短期阶段的搜索区域大小和定义的失败案例的大小分别设置为255和767。进入和离开失败案例的阈值设置为0.8和0.95。我们的实验使用PyTorch在具有Intel i7、48G RAM、NVIDIA TITAN X的PC上实现。所提出的跟踪器在短期基准测试中可以达到160FPS，在长期基准测试中可以达到110FPS。代码和实验结果在 https://github. com/foolwood/DaSiamRPN。

4.2 VOT数据集上的最佳比较

本节使用最新版本的视觉对象跟踪工具包 (vot2017challenge)。该工具包采用基于重置的方法。每当检测到故障（与地面实况零重叠）时，跟踪器就会在故障发生后五帧重新初始化。性能以准确度 (A)、稳健性 (R) 和预期平均重叠 (EAO) 来衡量。此外，VOT2017还引入了实时实验。我们报告了所有这些指标，并与VOT2015、VOT2016和VOT2017上的许多最新最先进的跟踪器进行了比较。

图5a显示了在VOT2016上评估的EAO曲线，并与其他70个最先进的跟踪器进行了比较。我们的基线跟踪器SiamRPN在VOT2016上的EAO为0.3441，已经超越了大多数最先进的跟踪器。然而，与排名第一的跟踪器ECO（0.375）相比仍然存在差距，ECO改进了多层特征图上的连续卷积算子。最值得注意的是，提出的DaSiamRPN获得了0.411的EAO，比最先进的跟踪器高出9.6%。此外，我们的跟踪器以160FPS的最先进的速度运行，比C-COT快500倍，比ECO快20倍。

对于VOT2017上的评估，图5b报告了我们的结果与其他51个最先进的跟踪器在EAO得分方面的比较结果。DaSiamRPN排名第一，EAO得分为0.326。在排名前5位的跟踪器中，CFWCR、CFCF、ECO和Gnet应用连续卷积算子作为基线方法。表现最好的LSART[30]将目标分解为块，并将块相似性的加权组合应用于核化岭回归。而我们的方法在概念上更简单、更强大，也更容易理解。

图5b还显示了实时实验中的EAO值（以红点表示）。我们的跟踪器显然是表现最好的，实时EAO 为0.326，比最新的先进实时跟踪器CSRDCF++的表现高出53.8%。

表1显示了VOT2015、VOT2016和VOT2017上的准确率 (A) 和稳健性 (R) 以及预期平均重叠度 (EAO)。基线方法SiamRPN可以以惊人的每秒200帧的速度处理，同时仍能获得与最先进技术相当的性能。我们发现SiamRPN的性能提升主要归功于其准确的多锚点回归机制。我们提出了干扰项感知模块来提高稳健性，这可以使我们的跟踪器更加和谐。因此，我们的方法在三个基准测试中的 EAO分别为0.446、0.411和0.326，大大优于所有现有的跟踪器。我们相信，持续的改进表明我们的方法在训练过程和在线推理方面都做出了真正的贡献。

4.3 无人机数据集上的最佳比较

UAV[22]视频是从低空无人机拍摄的。数据集包含长期评估子集UAV20L和短期评估子集 UAV123。评估基于两个指标：精度图和成功图。

UAV20L上的结果UAV20L是一个长期跟踪基准，包含20个序列，平均序列长度为2934帧。除了短期跟踪中的挑战性情况外，严重的视野外和完全遮挡也带来了额外的挑战。在本实验中，将所提出的方法与[22]中的最新跟踪器进行了比较。此外，还添加了ECO[3]（最先进的短期跟踪器）、PTAV[6]（最先进的长期跟踪器）、SiamRPN[16]（基线）、SiamFC[2] 和CFNet[33]（代表性暹罗跟踪器）进行比较。

图6：UAV[22]数据集上的成功率和精度图。第一和第二个子图是UAV20L的结果，第三个和最后一个子图是UAV123的结果。

图6显示了包括成功图和精度图在内的结果。它清楚地表明，我们的算法（记为 DaSiamRPN）在两个指标上都显著优于最先进的跟踪器。在成功图中，我们的方法获得了0.617的AUC得分，显著优于最先进的短期跟踪器SiamRPN[16]和ECO[3]。改进幅度分别为相对35.9%和41.8%。与有资格执行长期跟踪的PTAV[6]、MUSTer[9]和TLD[10] 相比，提出的DaSiamRPN的表现分别优于这些跟踪器45.8%、87.5%和213.2%。在精度图中，我们的方法获得了0.838的分数，比最先进的长期跟踪器 (PTAV[6]) 和短期跟踪器 (SiamRPN[16]) 分别高出34.3%和35.8%。DaSiamRPN在这个长期跟踪数据集中的出色表现可以归功于干扰感知功能和从局部到全局的搜索策略。

为了进行详细的性能分析，我们还报告了UAV20L中各种挑战属性的结果，即完全遮挡、视野外、背景杂乱和部分遮挡。图12表明我们的跟踪器可以有效处理这些具有挑战性的情况，而其他跟踪器的得分较低。具体来说，在完全遮挡和背景杂乱属性中，提出的DaSiamRPN的表现比SiamRPN[16]分别高出153.1%和393.2%。

UAV123上的结果UAV123数据集包括123个序列，平均序列长度为915帧。除了[22]中的最新跟踪器外，还添加了ECO[3]、PTAV[6]、SiamRPN[16]、SiamFC[2]和CFNet[33] 进行比较。图6展示了比较的跟踪器的精度和成功率图。在成功率和精度得分方面，所提出的DaSiamRPN方法优于所有其他跟踪器。具体来说，我们的方法实现了0.586的成功率，大大优于SiamRPN（0.527）和 ECO（0.525）方法。

4.4 OTB数据集上的最佳比较

表1：公开的短期基准测试中性能对比。OP：阈值为0.5时的平均重叠精度；DP：20像素的平均距离精度；EAO：预期平均重叠度，以及平均速度（FPS）。红色粗体字体和蓝色斜体字体表示最佳性能和第二佳性能。

我们用许多快速且最先进的跟踪器评估了所提出的算法，包括SiamFC[2]、CFNet[33]、Staple[1]、CSRDCF[19]、BACF[11]、ECO-HC[3]、CREST[29]、MDNet[23]、CCOT[5]、ECO[3]和基线跟踪器SiamRPN[16]。所有跟踪器都使用第一帧中的真实对象状态进行初始化。表1报告了平均重叠精度 (OP) 和平均距离精度 (DP)。

在实时跟踪器中，SiamFC和CFNet是最新的基于孪生网络的跟踪器，但其准确度仍远远落后于最先进的BACF和具有HOG特征的ECO-HC。所提出的DaSiamRPN跟踪器在准确度和速度上都远远优于所有这些跟踪器。对于OTB上的最新比较，在视觉跟踪数据集上训练的MDNet在1FPS的速度下比其他跟踪器表现最佳。CCOT和ECO实现了最先进的性能，但它们的跟踪速度对于实时应用来说不够快。基线跟踪器SiamRPN的OP得分为81.9%，准确度略低于CCOT。SiamRPN的瓶颈在于其较差的稳健性性能。由于训练和推理中的干扰感知机制均注重提高鲁棒性，因此提出的DaSiamRPN追踪器在DP上实现了3.0%的提升，并在OTB2015上获得了86.5%的最佳OP分数。

4.5 消融分析

为了验证算法中每个组件的贡献，我们实施并评估了我们方法的四种变体。分析结果包括 VOT2016[14]上的EAO和UAV20L[22]上的AUC。

如表2所示，SiamRPN是我们的baseline算法。在VOT2016中，当在训练中加入检测数据时，EAO标准从0.344提高到0.368。同样，当在训练和推理中采用负对和干扰感知学习时，性能都提高了近2%。在UAV20L中，检测数据、训练中的负对和干扰感知推理使性能提高了1%-2%。当采用长期跟踪模块时，AUC标准从49.8%提高到61.7%。

5 结论

在本文中，我们提出了一种干扰感知孪生框架，用于精确和长期跟踪。在离线训练期间，提出了一种干扰感知特征学习方案，可以显著提高网络的判别能力。在推理过程中，设计了一种新颖的干扰感知模块，有效地将一般嵌入转移到当前视频域。此外，我们通过引入一种简单而有效的局部到全局搜索策略扩展了所提出的长期跟踪方法。所提出的跟踪器在短期和长期视觉跟踪基准的综合实验中获得了最先进的精度，但整体系统速度仍然远远达不到实时水平。

【二、学习部分】

1 论文理解

DaSiamRPN在SiamRPN的基础基础上，针对无法区分语义背景的问题，提出了干扰感知模块来识别语义背景。论文工作主要在三个方面进行，1、重新组织训练数据，引入有效的抽样策略来控制不平衡的样品分布。2、设计一种新颖的干扰感知模块来执行增量学习（将一般嵌入转移到当前视频域）。3、进行长期跟踪扩展，通过在跟踪失败的情况下增加搜索区域重新定位目标。

2 经典十问

2.1 有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？

论文提到：

相关研究有：基于孪生网络的跟踪、跟踪特征和长期跟踪。

论文可归类为基于孪生网络的长期跟踪。

在本文的相关工作中，作者没有点出相关工作与本文工作的关系，在孪生跟踪方面，指出SiamRPN使用大规模图像对进行端到端离线训练。在跟踪特征方面，指出UCT将特征学习和跟踪过程制定成一个统一的框架，使学习到的特征与跟踪过程紧密耦合。在长期跟踪方面，Fan和Ling将DSST跟踪器与CNN检测器]相结合，以验证并可能校正短期跟踪器的提议，反映出当前少有将深度学习应用于解决长期跟踪任务的研究，表现出本文在长期跟踪领域应用的先进性。