【综述】Deep Learning for Visual Tracking: A Comprehensive Survey-2019

最新推荐文章于 2023-06-01 10:14:06 发布

wL魔法师

最新推荐文章于 2023-06-01 10:14:06 发布

阅读量3.1k

点赞数 5

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/qq_33000453/article/details/111934879

版权

计算机视觉专栏收录该内容

15 篇文章 1 订阅

订阅专栏

论文地址： https://arxiv.org/pdf/1912.00535.pdf

Abstract

视觉目标跟踪是计算机视觉中最受欢迎但最具挑战性的研究课题之一。鉴于问题的不适定性质及其在广泛的现实世界场景中的流行，已经建立了一些大规模的基准数据集，在这些数据集上开发了相当多的方法，并在近年来取得了重大进展-主要是通过最近基于深度学习(DL)的方法。本调查旨在系统地研究当前基于DL的视觉跟踪方法、基准数据集和评估度量。它还广泛地评估和分析了领先的视觉跟踪方法。首先，从网络体系结构、网络开发、视觉跟踪网络训练、网络目标、网络输出和相关滤波器优势的开发六个关键方面总结了基于DL的方法的基本特征、主要动机和贡献。第二，比较了流行的视觉跟踪基准及其各自的属性，并总结了它们的评价指标。第三，在OTB2013、OTB2015、VOT2018和LaSOT的一组公认的基准上，对最先进的基于DL的方法进行了全面的研究。最后，通过对这些最先进的方法进行定量和定性的批判性分析，研究了它们在各种常见场景下的利弊。它可以作为一个温和的使用指南，供从业者权衡何时和在何种条件下选择哪种方法。它还促进了对当前问题的讨论，并阐明了有希望的研究方向。

Index :Visual tracking, deep learning, computer vision, appearance modeling

1.Introduction

视觉跟踪旨在估计未知视觉目标的轨迹时，只有目标的初始帧（在视频帧中）是可以拿到的。视觉跟踪是一个开放和有吸引力的研究领域(见图1)

具有广泛的类别和应用；包括自动驾驶汽车[1]-[4]，自主机器人[5]，[6]，监控[7]-[10]，增强现实[11]-[13]，无人驾驶飞行器跟踪[14]，体育[15]，外科[16]，生物学[17]-[19]，海洋勘探[20]，举几个例子。视觉跟踪的不适定定义(即无模型跟踪、实时学习、单摄像机、2D信息)在复杂的现实世界场景中更具挑战性，其中可能包括任意类别的目标外观及其运动模型（例如，人、无人机、动物、车辆）。不同的成像特性（例如静态/移动摄像机、平滑/中断运动、摄像机分辨率)和环境条件的变化(例如光照变化、背景杂波、拥挤场景）。传统视觉跟踪方法利用各种框架-如判别相关滤波器(DCF)[21]-[24]、轮廓跟踪[25]、[26]、核跟踪[27]-[29]、点跟踪、[31]等-但这些方法在无约束环境中不能提供满意的结果。主要原因是目标表示采用手工制作的特征(如定向梯度直方图(HOG)[32]和颜色名称(CN)[33]和不灵活的目标建模。 受深度学习(DL)突破的启发[34]-[38]在图像网大规模视觉识别竞赛(ILSVRC)[39]以及视觉对象跟踪(VOT)挑战[40]-[46]，基于DL的方法引起了视觉跟踪社区的相当大的兴趣，以提供健壮的视觉跟踪器。虽然卷积神经网络(CNNs)最初一直是主导网络，但目前研究的结构范围广泛，如Siamese神经网络(SNNs)、递归神经网络(RNNs)、自动编码器(AES)、生成对抗性网络(GANs)和自定义神经网络。Fig.2介绍了近几年深度视觉跟踪器的发展历史。

最先进的基于DL的视觉跟踪器具有开发深度体系结构、骨干网络、学习过程、训练数据集、网络目标、网络输出、开发深度特征类型、CPU/GPU实现、编程语言和框架、速度等明显的特点。此外，近年来还提出了几个视觉跟踪基准数据集，用于视觉跟踪方法的实际培训和评估。尽管有各种属性，但这些基准数据集中的一些具有常见的视频序列。因此，本文对基于DL的方法、它们的基准数据集和评估度量进行了比较研究，以方便视觉跟踪社区开发先进的方法。

视觉跟踪方法可大致分为计算机视觉DL革命之前之后两大类。第一类视觉跟踪调查论文[47]-[50]主要回顾传统的基于经典对象和运动表示的方法，然后系统地、实验地或两者都检查它们的利弊。考虑到基于DL的视觉跟踪器的显著进展，这些论文所综述的方法已经过时。另一方面，第二类评论限制了深度视觉跟踪[51]-[53]。论文[51]，[52]（一篇论文的两个版本）将81和93手工制作和深度视觉跟踪器分类为相关滤波器跟踪器和非相关滤波器跟踪器，然后应用了基于体系结构和跟踪机制的进一步分类。这方面论文<40种基于DL的方法进行了有限的研究。虽然本文特别地研究[54]九种基于SNN的方法的网络分支、层和训练方面，但它不包括最先进的基于SNN的跟踪器（例如，[55]-[57]SiamRPN++，残差用到孪生网络中，在线快速目标跟踪与分割）他们部分利用SNN的定制网络(例如，[58]样本多样性）。最后一篇综述论文[53]根据43种基于DL的方法的结构、功能和训练进行了分类。然后，用不同的手工制作的视觉跟踪方法对16种基于DL的视觉跟踪器进行了评价。从结构的角度来看，这些跟踪器分为34种基于CNN的方法(包括10种CNN匹配和24种CNN分类)、5种基于RNN的方法和4种其他基于体系结构的方法(例如AE)。此外，从网络功能的角度，将这些方法分为特征提取网络(FEN)或端到端网络(EEN)。虽然FENs是利用预先训练的模型进行不同任务的方法，EENs按其产出分类；即对象分数、置信图和包围框(BB)。从网络训练的角度来看，这些方法分为NP-OL、IP-NOL、IP-OL、VP-NOL和VP-OL类，其中NP、IP、VP、OL和NOL分别是无预训练、图像预训练、视频预训练、在线学习和无在线学习的缩写。尽管做出了所有的努力，但没有进行全面的研究，不仅对基于DL的跟踪器、它们的动机和解决不同问题的方法进行广泛的分类，而且还根据不同的具有挑战性的场景对最佳方法进行了实验分析。在这些关注的推动下，本调查的主要目标是填补这一空白，并调查目前的主要问题和未来的方向。本调查与以往调查的主要差异描述如下。

以往调查的差异：尽管目前有现有的评论论文，本文只关注129种最先进的基于DL的视觉跟踪方法，这些方法已经发表在主要的图像处理和计算机视觉会议和期刊上。

These methods include the HCFT[59]，DeepSRDCF[60]，FCNT[61]，CNNSVM[62]，DPST[63]，CCOT[64]，GOTURN[65]，SiamFC[66]，SINT[67]，MDNet[68]，HDT[69]，STCT[70]，RPNT[71]，DeepTrack[72]，CNT[73]，CF-CNN[74]，TCNN[75]，RDLT[76]，PTAV[77]，[78]，CREST[79]，UCT/UCTLite[80]，DSiam/DSiamM[81]，TSN[82]，WECO[83]，RFL[84]，IBCCF[85]，DTO[86]]，SRT[87]，R-FCSN[88]，GNET[89]，LST[90]，VRCPF[91]，DCPF[92]，CFNet[93]，ECO[94]，DeepCSRDCF[95]，MCPF[96]，BranchOut[97]，DeepLMCF[98]，Obli-RaFT[99]，ACFN[100]，SANet[101]，DCFNet/DCFNet2[102]，DET[103]，DRN[104]，DNT[105]，STSGS[106]，TripletLoss[107]，DSLT[108]，UPDT[109]，ACT[110]，DaSiamRPN[111]，RT-MDNet[112]，StructSiam[113]，MMLT[114]，CPT[115]，STP[116]，Siam-MCF[117]，Siam-BM[118]，WAEF[119]，TRACA[120]，VITAL[121]，DeepSTRCF[122]，SiamRPN[123]，SA-Siam[124]，FlowTrack[125]，DRT[126]，LSART[127]，RASNet[128]，MCCT[129]，DCPF2[130]，VDSR-SRT[131]，FCSFN[132]，FRPN2TSiam[133]， FMFT[134]，IMLCF[135]，TGGAN[136]，DAT[137]，DCTN[138]，FPRNet[139]，HCFTs[140]，adaDDCF[141]，YCNN[142]，DeepHPFT[143]，CFCF[144]，CFSRL[145]，P2T[146]，DCDCF[147]，FICFNet[148]，LCTdeep[149]，HSTC[150]，DeepFWDCF[151]，CF-FCSiam[152]，MGNet[153]，ORHF[154]，ASRCF[155]，ATOM[156]，CRPN[157]，GCT[158]，RPCF[159]，SPM[160]，SiamDW[56]，SiamMask[57]，SiamRPN[55]，TADT[161]，UDT[162]，DiMP[163]，ADT[164]，CODA[165]，DRRL[166]，SMART[167]，MRCNN[168]，MM[169]，MTHCF[170]，AEPCF[171]，IMM-DFT[172]，TAAT[173]，DeepTACF[174]，MAM[175]，ADNet[176]，[177]，C2FT[178]，DRL-IS[179]，DRLT[180]，EAST[181]，HP[182]，P-Track[183]，RDT[184]，and SINT[58]。

跟踪器包括73个基于CNN的、35个基于SNN的、15个基于自定义的(包括基于AE的、基于增强学习(RL)的和组合网络)、三个基于RNN的和三个基于GAN的方法。本文的一个主要贡献和新颖性是包括和比较基于SNN的视觉跟踪方法，这是目前视觉跟踪社区非常感兴趣的。此外，还回顾了最近基于GAN和自定义网络(包括基于RL的方法)的视觉跟踪器。虽然本调查中的方法被归类为利用现成的深层特征和视觉跟踪的深层特征(类似于[53]中的FENs和EENs)，但还介绍了这些方法的详细特点，如预先训练或骨干网络、剥削层、训练数据集、目标函数、跟踪速度、使用的特征、跟踪输出的类型、CPU/GPU实现、编程语言、DL框架。从网络训练的角度，本调查独立研究了深层现成特征和深层特征进行视觉跟踪。由于从FENs中提取的深层现成特征(即从FENs中提取的特征)大多是在对象识别任务，因此它们的训练细节将被独立地审查。因此，用于视觉跟踪的网络培训被归类为基于DL的方法，这些方法只利用离线培训、仅在线培训或离线和在线培训程序。最后，本文综合分析了45种最先进的视觉跟踪方法在四个视觉跟踪数据集上的不同方面。

本文的主要贡献总结如下：

1）基于DL的最先进的视觉跟踪方法是根据其体系结构(即CNN、SNN、RNN、GAN和自定义网络)、网络开发（即用于视觉跟踪的底层深层特征和深层特征)、视觉跟踪网络培训(即仅离线培训、仅在线培训、离线和在线培训)、网络目标(即基于回归的、基于分类的、以及基于分类和回归的）以及利用相关滤波器优势(即DCF框架和利用相关滤波器/层/功能)进行分类)。这种研究涵盖了所有这些方面，详细分类的视觉跟踪方法，以前没有提出。

2）总结了基于DL的方法解决视觉跟踪问题的主要动机和贡献。据我们所知，这是第一篇研究视觉跟踪方法的主要问题和提出的解决方案的论文。这种分类为设计精确和健壮的基于DL的视觉跟踪方法提供了适当的洞察力。

3）基于基本特征（包括视频数量、帧数、类或簇数、序列属性、缺失标签和与其他数据集重叠），最近的视觉跟踪基准数据集包括

OTB2013 [185], VOT [40]–[46], ALOV [48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO [189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193], BUAA-PRO [194], GOT10k [195], and LaSOT [196] are compared.

4）最后，对著名的OTB2013、OTB2015、VOT2018和LaSOT视觉跟踪数据集进行了广泛的定量和定性实验评价，并根据不同的方面对最先进的视觉跟踪器进行了分析。此外，本文还首次指定了最具挑战性的视觉属性，不仅用于VOT2018数据集，而且还用于OTB2015和LaSOT数据集。最后，对VOT工具包[45]进行了修改，根据TraX协议[197]对不同的方法进行了定性比较。

根据比较，作出如下观察：

1）基于SNN的方法是最有吸引力的深层结构，因为它们在视觉跟踪的性能和效率之间有着令人满意的平衡。此外，视觉跟踪方法最近试图利用RL和GAN方法的优势来完善它们的决策，并缓解训练数据的缺乏。基于这些优点，最近的视觉跟踪方法旨在设计用于视觉跟踪目的自定义神经网络。

2）深度特征的离线端到端学习适当地适应预先训练的特征进行视觉跟踪。虽然DNN的在线训练增加了计算复杂度，使得大多数这些方法不适合实时应用，但它大大有助于视觉跟踪器适应显著的外观变化，防止视觉干扰，提高视觉跟踪方法的准确性和鲁棒性。因此，利用离线和在线培训程序提供了更健壮的视觉跟踪器。

3）利用更深、更宽的骨干网络提高了区分目标与其背景的鉴别能力。

4）最佳的视觉跟踪方法不仅使用回归和分类目标函数来估计最佳目标方案，而且还可以找到最紧的BB进行目标定位。

5）不同特征的开发增强了目标模型的鲁棒性。例如，基于DCF的大多数方法都融合了现成的深层特征和手工制作的特征(例如HOG和CN)，因为这个原因。此外，利用互补特征，如时间或上下文信息，导致了更具鉴别性和鲁棒性的目标表示特征。

6）基于DL的视觉跟踪方法最具挑战性的属性是遮挡、跳出视图和快速运动。此外，具有相似语义的视觉干扰可能导致漂移问题。

2.TAXONOMY OF DEEP VISUAL TRACKING METHODS

在本节中，描述了目标表示/信息、培训过程和学习过程的三个主要组成部分。然后，提出了基于DL的方法的综合分类。

基于DL的方法的主要动机之一是通过利用/融合深层层次特征、利用上下文信息或运动信息以及选择更具鉴别性和鲁棒性的深层特征来改进目标表示。此外，基于DL的方法旨在有效地训练用于视觉跟踪系统的DNN。他们的一般动机可以分为使用不同的网络培训（例如网络预训练、在线培训或两者兼而有之)或处理一些培训问题(例如缺乏培训数据、过度拟合培训数据和计算复杂性）。无监督训练是最近使用丰富的未标记样本的另一种方案，可以通过根据上下文信息对这些样本进行聚类、将训练数据映射到多个空间或利用基于一致性的目标函数来执行。最后，将基于DL的跟踪器根据其学习过程的主要动机分为在线更新方案、纵横比估计、尺度估计、搜索策略和提供长期记忆。

在下面，基于DL的视觉跟踪方法根据网络体系结构、网络开发、用于视觉跟踪的网络训练、网络目标、网络输出和相关滤波器优势的开发六个主要方面进行了综合分类。基于DL的视觉跟踪方法的拟议分类如图 3.所示。

此外，本节还将介绍其他重要细节，包括预先训练的网络、骨干网络、被开发的层、深度特征的类型、手工制作和深度特征的融合、训练数据集、跟踪输出、跟踪速度、硬件实现细节、编程语言和DL框架。在本节中，不仅对最先进的基于DL的视觉跟踪方法进行了分类，而且还对这些方法的主要动机和贡献进行了分类，这些方法可以提供有用的视角来确定未来的方向。

2.1 Network Architecture

虽然CNN已经被广泛应用于基于DL的方法中，但近年来其他体系结构也主要是为了提高视觉跟踪器的效率和鲁棒性而开发的。根据各种深层结构的技术范围，分类法由基于CNN的、基于SNN的、基于GAN的、基于RNN的和基于自定义网络的方法组成。

2.1.1 Convolutional Neural Network (CNN)

由于CNN在计算机视觉任务中的突破和一些吸引人的优点，如参数共享、稀疏交互和优势表示，广泛的方法利用CNN进行视觉跟踪。基于CNN的视觉跟踪器主要根据以下动机进行分类。

• Robust target representation:

提供强大的目标表示是使用CNN进行视觉跟踪的主要优势。为了实现学习目标建模的通用表示和构建更健壮的目标模型的目标，方法的主要贡献分为：

1）基于在大规模数据集的离线训练CNN视觉跟踪 [63], [68], [80], [89], [97], [100], [101], [104], [112],[116], [135], [137], [142], [144], [153], [165], [168], [169], [173]

2）设计特定的深卷积网络，而不是使用预先训练的模型[63], [68], [70], [72], [73],[75], [76], [80], [82], [89], [97], [100], [101], [104], [105], [108], [112], [116], [127], [135], [137], [141], [142], [144], [146], [150],[153], [165], [167]–[169], [171], [173],

3）构造多个目标模型以捕获各种目标外观[75], [116], [127], [129], [130], [143], [146],[172],

4）结合时空信息来改进模型的泛化[79], [82], [106], [119], [122], [137], [151], [153],

5）融合不同的深层特征，利用互补的空间和语义信息[64], [101], [108], [109], [135],

6）学习不同的目标模型，如相对模型[104]或基于部分的模型[116]、[127]、处理部分遮挡和变形的[146]，以及利用两流网络[127]防止过拟合和学习旋转信息。

• Balancing training data:

根据视觉跟踪的定义，在第一帧中只有一个正样本，增加了过度拟合的风险。虽然任意的背景信息可以被认为是每个帧中的负信息，但基于不完美目标估计的目标采样也可能导致噪声/不可靠的训练样本。这些问题极大地影响了视觉跟踪方法的性能。为了缓解这些问题，基于CNN的方法提出：

1）域适应机制（即将学习到的知识从源域转移到样本不足的目标域）[89]、[165]，

2）各种更新机制（例如定期、随机、短期和长期更新）[105]、[129]、[143]、[149]、[169]，

3）卷积Fisher判别分析(FDA)用于正、负样本挖掘[141]，iv)多分支CNN用于在线集成学习[97]

4）有效的抽样策略，以增加培训样本的数量[171]。

• Computational complexity problem: 尽管CNN在目标估计精度方面取得了显著进展，但基于CNN的方法仍然存在较高的计算复杂度。

为了减少这一限制，基于CNN的视觉跟踪方法利用了不同的解决方案，即：

1）把CNN分解成几个萎缩的网络[76]，

2）压缩或修剪训练样本空间[94]、[115]、[141]、[153]、[168]或特征选择[61]，

3）通过RoIarlign操作[112]（即通过双线性插值进行特征逼近）或斜随机森林[99]进行特征计算，以更好地捕获数据，

4）校正域适应方法[165]，

5）轻量级结构[72]，[73]，[167]，

6）有效的优化过程[98]，[155]，

7）利用相关滤波器的优点用于有效的计算[59]–[61], [64], [69], [74], [77]–[80], [83], [85], [86], [92], [94]–[96], [98], [100], [106], [108], [109], [115], [119], [122], [126], [127], [129]– [131], [135], [140], [141], [143], [144], [149]–[151], [155], [159], [165], [167], [171], [172], [174]

8）粒子采样策略[96]

9）利用注意机制[100]

2.1.2 Siamese Neural Network (SNN)

为了学习相似知识和实现实时速度，SNN在过去的几年中被广泛用于视觉跟踪目的。给定目标和搜索区域对，这些孪生网络计算相同的函数以产生相似图。基于SNN的方法的共同目的是克服预先训练的深度CNN的局限性，并充分利用端到端学习进行实时应用。

• Discriminative target representation:

视觉跟踪器构建鲁棒目标模型的能力主要依赖于目标表示。为了实现更具鉴别性的深层特征和改进目标建模，基于SNN的方法提出：

1）学习干扰感知[111]或目标感知功能[161]，

2）融合深度多层次特征[132]、[157]或组合置信图[88]、[90]、[124]，

3）利用 Snn中不同的损失函数来训练更有效的过滤器[57]、[107]、[161]-[163]，

4）利用不同类型的深层特征，如上下文信息[117]、[124]、[158]或时间特征/模型[65]、[81]、[125]、[133]、[158]、[175]，

5）充分探索低层次空间特征[132]，[157]，

6）考虑目标的角度估计，以防止突出背景物体的[118]，

7）利用多阶段回归来细化目标表示[157]，

8）以更深、更宽的深层网络为骨干，增加神经元的接受场，相当于捕获目标[56]的结构。

• Adapting target appearance variation:

仅使用第一代基于SNN的方法的直线训练，使这些方法难以适应目标外观变化。为了解决这一问题，最近提出了基于SNN的方法：

1）在线更新策略[81]，[90]，[93]，[103]，[111]，[152]，[156]，[163]，

2）背景抑制[81]，[111]]，

3）将跟踪任务制定为一次局部检测任务[111]、[123]

4）对重要的特征通道或分数映射[88]、[124]、[128]、[148]赋予更高的权重。

或者，DaSiamRPN[111]和MMLT[114]使用本地到全局搜索区域策略和内存开发来处理诸如完全遮挡和视图外的关键挑战，并增强本地搜索策略。

• Balancing training data:

作为基于CNN的方法的一个同样的问题，基于SNN的方法已经进行了一些努力来解决训练样本的不平衡分布。基于SNN的方法的主要贡献是：

1）利用多级SNN来刺激硬负采样[157]，

2）采用固定前景与背景比等抽样启发式[157]或随机抽样[111]或流动引导抽样[133]等抽样策略

3）利用相关滤波器/层的优势进入Siamese框架

2.1.3 Recurrent Neural Network (RNN)

由于视觉跟踪与视频帧的空间和时间信息因此采用基于RNN的方法同时考虑目标运动/运动。由于艰苦的训练和大量的参数，基于RNN的方法的数量是有限的。几乎所有这些方法都试图 利用额外的信息和内存来改进目标建模。此外，使用基于RNN的方法的第二个目的是 避免对预先训练的CNN模型进行微调，这需要大量的时间，并且容易发生过拟合。这些方法的主要目的可以分为时空表示捕获[84]、[139]、[175]、利用上下文信息处理背景杂波[139]、利用多级视觉注意力突出目标以及背景抑制[175]，以及使用卷积长短期记忆(LSTM)作为以前目标外观[84]的记忆单元。此外，基于RNN的方法利用金字塔多方向递归网络[139]或将LSTM合并到不同的网络中，[84]记忆目标外观并研究时间依赖性。最后，[139]对目标的自我结构进行编码，以降低与类似干扰物相关的跟踪灵敏度。

2.1.4 Generative Adversarial Network (GAN)

基于一些吸引人的优点，如捕获统计分布和在没有广泛注释数据的情况下生成所需的训练样本，GANs在许多研究领域得到了广泛的利用。虽然GAN通常很难训练和评估，但一些基于DL的视觉跟踪器使用它们来丰富训练样本和目标建模。这些网络可以在特征空间中增强正样本，以解决训练样本[121]的不平衡分布。此外，基于GAN的方法可以学习一般的外观分布来处理视觉跟踪[136]的自学习问题。此外，回归和判别网络的联合优化将导致[164]利用回归和分类任务。

2.1.5 Custom Networks

在特定的深层架构和网络层的启发下，现代基于DL的方法结合了广泛的网络，如AE、CNN、RNN、SNN和深度RL进行视觉跟踪。主要动机是利用其他网络的优势来弥补普通方法的不足。主要动机和贡献分类如下。

• Computational complexity problem:

如前所述，这个问题限制了在线跟踪器在实时应用中的性能。为了控制基于自定义网络的视觉跟踪器的计算复杂度，TRACA[120]和AEPCF[171]方法采用AES压缩原始的传统深度特征，EAST[181]自适应地将浅层特征用于简单的帧跟踪，或将昂贵的深度特征用于具有挑战性的[181]，TRACA[120]、CFSRL和AEPCF[171]利用DCF计算效率。

• Model update:

为了在跟踪过程中保持目标模型的稳定性，提出了不同的更新策略；例如，CFSRL[145]并行更新多个模型，DRRL[166]包含一个LSTM来利用远程时间依赖，AEPCF[171]利用长期和短期更新方案来提高跟踪速度。为了防止错误的模型更新和漂移问题，RDT[184]将视觉跟踪公式修改为下一次本地化的最佳目标模板的连续决策过程。此外，使用RL[183]有效地学习好的决策策略是采取模型更新或忽略决策的另一种技术。

• Limited training data:

如果出现遮挡、模糊和大变形，软的和非代表性的训练样本会干扰视觉跟踪。该AEPCF[171]利用密集的圆形采样方案来防止由于训练数据有限而引起的过拟合问题。为了制作多样化和具有挑战性的训练数据，SINT[58]通过正样本生成网络(PS GN)和硬正变换网络(HPTN)生成正训练样本和硬训练样本。为了在没有大量训练数据的情况下有效地训练DNN，部分标记的训练样本被一个动作驱动的深度跟踪器[176]使用，[177]。此外，P-Track[183]使用主动决策来交互式地标记视频，同时在有限的注释数据可用时学习跟踪器。

• Search strategy:

从定义上看，视觉跟踪方法估计下一帧搜索区域中的新目标状态，给定第一帧中的初始目标状态。最佳搜索区域的选择取决于迭代搜索策略，迭代搜索策略通常不仅独立于视频内容，而且还独立于启发式、蛮力和手工设计。尽管基于滑动窗口、平均移位或粒子滤波的经典搜索策略，但最先进的基于DL的视觉跟踪器利用基于RL的方法来学习数据驱动的搜索策略。为了详尽地探索一个感兴趣的区域，并选择最佳的目标候选，行动驱动的跟踪机制[176]，[177]考虑目标上下文的变化，并积极地追求目标的运动。此外，ACT和DRRL通过动态搜索过程[110]和粗到细验证[166]，提出了基于RL的实时需求搜索策略。

• Exploiting additional information:

为了利用运动或上下文信息来增强目标模型，DCTN[138]建立了一个双流网络，SRT[87]采用多方位RNN来学习目标在视觉跟踪过程中的进一步依赖关系。为了对相关信息进行编码以更好地定位，以前的语义信息和跟踪建议都是通过递归卷积网络[180]建模的。此外，DRL-IS[179]还引入了一个行为-批评网络来有效地估计目标运动参数。

• Decision making:

在线决策对基于DL的视觉跟踪方法的性能有主要影响。最先进的方法试图学习在线决策，将RL纳入基于DL的方法，而不是手工设计的技术。为了获得有效的决策策略，P-Track[183]最终利用活动代理中的数据驱动技术来决定跟踪、重新初始化或更新过程。此外，DRL-IS[179]利用一种基于原则的RL方法来选择基于目标状态的。此外，还提出了一个动作预测网络来调整视觉跟踪器的连续动作，以确定学习最佳动作策略和[182]作出满意决策的最优超参数。

2.2 Network Exploitation

粗略地说，DNN用于视觉跟踪的主要开发有两种，包括在 部分相关的数据集上重用预先训练的模型或 利用深度特征进行视觉跟踪，这相当于为视觉跟踪目的训练DNN。

2.2.1 Model Reuse or Deep Off-the-Shelf Features

利用现成的深层特征是将深层特征的力量传递给传统视觉跟踪方法的最简单方法。这些特性提供了视觉目标的通用表示，并帮助视觉跟踪方法构建更健壮的目标模型。关于拓扑，DNN要么包括一个简单的多层非线性层堆栈(例如AlexNet[34]、VGGNet[35]、[36])，要么包括一个有向无环图拓扑(例如GoogLe Net[37]、ResNet[128]、SSD[198]、Siamese卷积神经网络)，它允许设计更复杂的深层结构，其中包括多个输入/输出层。这些跟踪器的主要挑战是如何使泛型表示完全受益。不同的方法采用了各种特征映射和模型，这些特征映射和模型已经在Image Net数据集的大尺度静止图像上进行了主要的预训练，[39]用于对象识别任务。许多方法研究了预先训练的模型的特性，并探讨了传统框架中深层特征的影响（见表1）。因此，基于DL的方法[59]、[61]、[64]、[140]、[157]、[200]和[201]都倾向于同时开发语义和细粒度的深层特征。深度特征的融合也是这些方法的另一个动机，这些方法是通过不同的技术来利用多分辨率的深度特征[59]–[61], [64], [69], [83], [109], [129], [130], [143], [152], [172]并在后期[109]将深层特征与浅层特征独立融合。利用运动信息[92]、[106]、[172]、[202]和选择合适的深度特征进行视觉跟踪任务[61]，是基于DL的方法的另外两个有趣的动机。基于深度现成特征的基于DL的视觉跟踪器的详细特性如表1所示。不用说，这些方法的网络输出是深度特征映射。

2.2.2 Deep Features for Visual Tracking Purpose

新方法的一个趋势部分是如何设计和训练DNN进行视觉跟踪。由于不同任务的目标之间的不一致，使用深度现成的特征限制了视觉跟踪性能。此外，离线学习的深层特征可能无法捕获目标变化，并且倾向于在初始目标模板上过度拟合。因此，DNN被训练在大规模的数据集，以专门的网络视觉跟踪目的。此外，在视觉跟踪过程中应用微调过程可以调整一些网络参数，并产生更精细的目标表示。然而，由于启发式固定迭代次数和有限的可用训练数据，微调过程耗时且容易过度拟合。如表2至表4所示，这些基于DL的方法通常通过离线培训或在线培训或两者兼而有之来训练预先训练的网络即骨干网络。

2.3 Network Training

最先进的基于DL的视觉跟踪方法主要是通过应用基于梯度的优化算法，利用训练/再训练DNN的端到端学习。然而，这些方法根据其离线网络训练、在线微调、计算复杂度、处理缺乏训练数据、解决过拟合问题以及利用无监督训练的未标记样本等方面存在差异。前几份审查文件中的网络培训部分[51]-[53]考虑FEN和EEN，尽管FEN只是为其他任务预先培训的，并且没有视觉跟踪的培训程序。在这项调查中，基于DL的方法被归类为仅离线预培训，仅在线培训，以及离线和在线培训的视觉跟踪目的。这些方法的训练细节见表2至表4。

2.3.1 Only Offlfline Training

大多数基于DL的视觉跟踪方法只对其网络进行预训练，以提供通用的目标表示，并减少由于训练数据和固定假设不平衡而过度拟合的高风险。为了调整视觉跟踪任务的学习滤波器权重，对专业网络进行大规模数据训练，不仅利用更好的表示，而且通过防止视觉跟踪过程中的训练来实现可接受的跟踪速度（见表2）。

2.3.2 Only Online Training

为了区分评估视频中可能被认为是目标的未见目标，一些基于DL的视觉跟踪方法使用DNN的整体或部分的在线训练来根据目标外观的多样性来适应网络参数。由于离线训练对大规模训练数据的耗时过程和预先训练的模型在表示跟踪特定目标时的不明确区分，表3所示的方法直接使用DNN的训练和在线推理过程。然而，这些方法通常利用一些策略来防止过拟合问题和发散。

2.3.3 Both Offlfline and Online Training

为了利用DNN的最大容量进行视觉跟踪，表4所示的方法使用离线和在线培训。离线和在线学习的特征被称为共享和特定于域的表示，它们主要可以区分目标和前景信息或类内干扰器。由于视觉跟踪是一个困难和具有挑战性的问题，基于DL的视觉跟踪器试图同时使用特征可转移性和在线域自适应。

2.4 Network Objective

在训练和推理阶段之后，基于DL的视觉跟踪器基于网络目标函数对给定的目标进行定位。因此，基于DL的视觉跟踪方法分为基于分类的、基于回归的或基于分类和基于回归的方法，如下所示。这种分类是基于在视觉跟踪方法中使用的DNN的目标函数(见图3)；因此，本节不包括利用深层现成特征的方法，因为这些方法不设计和训练网络，通常使用DNN进行特征提取。

2.4.1 Classifification-based Objective Function

在图像检测等其他计算机视觉任务的推动下，基于分类的视觉跟踪方法采用对象建议方法从搜索区域提取数百个候选框/proposal BBs。这些方法旨在通过分类的方式来得到高分区域。这种两类（或二进制）分类涉及来自不同类和移动模式的视觉目标，以及单个序列，包括具有挑战性的场景。由于这些方法对类间分类的主要关注，在相同标记目标存在的情况下跟踪视觉目标极易发生漂移问题。此外，跟踪目标的任意外观可能会导致识别不同外观的目标的问题。因此，基于分类的视觉跟踪方法的性能也与它们的对象建议方法有关，这通常会产生相当数量的候选BB。另一方面，最近一些基于DL的方法利用这一目标函数对BB进行最优作用[58], [166], [176]–[179], [181].

2.4.2 Regression-based Objective Function

基于回归的方法的主要目标是重新细化L2或L1损失函数的公式，例如利用学习过程[108]中的收缩损失，对回归系数和补丁可靠性进行建模，以有效地[127]优化神经网络，或者应用成本敏感损失来增强无监督学习性能[162]。

2.4.3 Both Classifification and Regression-based Objective Function

为了利用前景背景/类别分类和岭回归（即正则化的最小二乘目标函数），一些方法采用基于分类和回归的目标函数进行视觉跟踪(见图。 3)，他们的目标是弥合最近的跟踪检测和视觉跟踪的连续定位过程之间的差距。通常，这些方法利用基于分类的方法找到最相似的目标建议，然后用BB回归方法对估计区域进行细化[55], [68], [75], [87], [101], [110]–[112],[123], [137], [153], [168], [173].为了提高效率和准确性，通过分类分数和优化的回归/匹配函数来估计目标区域[56], [57], [134], [145], [146], [156], [157], [160], [163], [164],[167], [179].分类输出主要是对候选方案的置信度、前景检测、候选窗口的响应、操作等进行推断。

2.5 Network Output

根据其网络输出，将基于DL的方法分为六大类(见图 3和表2至表4)，即confifidence map （还包括评分图、响应图和投票图）、BB(还包括旋转BB)、对象评分（还包括对象提案的概率、验证分数、分数和分层分数）、动作、特征映射和分割mask。根据网络目标，基于DL的方法生成不同的网络输出来估计或细化估计的目标位置。

2.6 Exploitation of Correlation Filters Advantages

基于DCF的方法旨在学习一组判别滤波器，它们与一组频域训练样本的元素乘法确定空间目标位置。由于DCF提供了竞争的跟踪性能和计算效率相比，复杂的技术，基于DL的视觉跟踪器使用相关滤波器的优势。这些方法是根据他们如何利用DCF的优势，使用一个完整的DCF框架或一些好处，如它的目标函数或相关滤波器/层。相当多的视觉跟踪方法是基于DCF框架中深度特征的集成(见图3)。这些方法旨在提高目标表示对具有挑战性的属性的鲁棒性，而其他方法则试图提高correlation fifilter(s)[93]，correlation layer(s) [125], [141], [148], [161],[170], 和the objective function of correlation filters [80], [81], [102], [128], [156], [162]的计算效率。

3 VISUAL TRACKING BENCHMARK DATASETS

视觉跟踪基准数据集已经被引入，以提供公平和标准化的评价单目标跟踪算法。跟踪数据集包含视频序列，不仅包括不同的目标类别，而且具有不同的时间持续时间和具有挑战性的属性。这些数据集包含大量的视频序列、帧、属性和类（或clusters）。属性包括光照变化(IV)、尺度变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、面内旋转(IPR)、面外旋转(OPR)、视距外旋转(OV)、背景杂波(BC)、低分辨率(LR)、纵横比变化(ARC)、摄像机运动(CM)、全遮挡(FOC)、部分遮挡(POC)、相似物体(SOB)、视点变化(VC)、光(LI)、表面覆盖(SC)、镜面(SP)、透明度(TR)、形状(SH)、平滑度(MS)、运动相干性(MCO)、混淆(CON)、低对比度(LC)、缩放摄像机(ZC)、长时间(LD)、阴影变化(SHC)、图像变化(SHC闪光灯(FL)、暗光(DL)、相机抖动(CS)、旋转(ROT)、快速背景变化(FBC)、运动变化(MOC)、物体颜色变化(OCO)、场景复杂性(SCO)、绝对运动(AM)、尺寸(SZ)、相对速度(RS)、干扰器(DI)、长度(LE)、快速摄像机运动(FCM)和小/大物体(SLO)。表5比较了视觉跟踪数据集的特征，存在用于无监督训练的缺失标记数据，以及数据集的部分重叠。通过不同的评估协议，现有的视觉跟踪基准评估视觉跟踪器在现实场景中的准确性和鲁棒性。均匀化的评估协议便于直观的比较和开发视觉跟踪器。在下面，简要描述最流行的视觉跟踪基准数据集和评估度量。

3.1 Visual Tracking Datasets

第一个对象跟踪基准数据集之一，称为OTB2013[185]，由51个全注释视频序列开发，以解决基于少数视频序列或不一致的初始条件或参数的报告跟踪结果问题。OTB2015[186]是一个扩展的OTB2013数据集，包括100个常用的视频序列，目的是进行无偏性能比较。为了提供视觉跟踪算法在颜色序列上的性能，TempleColor128(TColor128或TC128)收集[187]一组129个全注释的视频序列，其中78个与OTB数据集不同；然而，它的属性与OTB数据集的属性注释相同。已收集了 Amsterdam 视频库(ALO V)数据集[48]，涵盖不同的视频序列和属性。通过强调具有挑战性的视觉跟踪场景，ALOV数据集由304个各种短视频和10个更长的视频组成。视频序列是从现实生活中的You Tube视频中选择的，有十三个难度。 ALOV的视频已经根据其属性之一进行了分类（表5），尽管在OTB数据集中，每个视频都被几个视觉属性注释。

无人机123(UAV123)[188]提供了一个稀疏和低空无人机跟踪数据集，其中包含由专业级无人机捕获的真实和合成的高清视频序列，安装在小型低成本无人机上的板摄像头，以及无人机模拟器。为了跟踪行人和刚性对象，NUS人和刚性对象(NUS-PRO)数据集不仅在12个具有挑战性的因素下提供了365个来自Youtube的视频序列[189]而且还注释了每个帧的遮挡对象的级别，没有遮挡、部分遮挡和完全遮挡标签。它由五个主要类别（即脸、行人、运动员、刚性物体和长序列)和十六个亚类(包括帽子、面具、采访、政治家、太阳镜、篮球、体操、手球、赛车、足球、网球、飞机、船、汽车、直升机和摩托车）组成，主要由移动摄像机捕捉到。通过更高的帧速率(240FPS)相机，需要速度(NfS)数据集[190]提供来自现实世界场景的100个视频序列，系统地研究与视觉跟踪器实时分析相关的权衡带宽约束。这些视频要么是由手持的iPhone/iPad相机录制的，要么是来自YouTube的视频。此外，它包含广泛的视觉目标，即车辆、人、脸、动物、飞机和船只。

由于大数据集与有用数据集的不平等，VOT数据集[40]-[46]的目的是提供一个多样化和虚拟的小数据集从现有的视觉跟踪数据集，并每帧注释它们的旋转BBs和视觉属性。为了快速、直接地评估不同的视觉跟踪方法，VOT包括视觉跟踪交换(TraX)协议[197]该协议不仅准备数据、运行实验和进行分析，而且还可以检测跟踪故障（即丢失目标），并在每次故障后重新初始化跟踪器五帧以评估跟踪鲁棒性。无人机跟踪基准(D TB)[191]是由无人机或无人机捕获的数据集，由70个不同的RGB视频组成，由于突然的摄像机运动，目标位置发生了巨大的位移。该数据集主要集中在跟踪人和汽车，并旨在集中在非平稳或缓慢移动相机的视觉跟踪器运动模型的性能，这些相机具有较高的自由度。尽管野外有一些小而饱和的跟踪数据集，这些数据集大多是为对象检测任务提供的，但大规模的TrackingNet基准数据集[192]已被提出，以适当地提供深度视觉跟踪器。它包括500个原始视频，超过1400万个直立BB注释，密集注释的数据在时间，丰富的对象类分布，和真实世界的场景由采样的YouTube视频。虽然跟踪网的训练和测试集分别由30132和115个视频序列组成，但在视频长度、BB分辨率、运动变化、纵横比和属性分布方面提供了相同的对象类分布。

为了长期跟踪频繁消失的目标，OxUVA数据集[193]从YoutubeBoundingBoxes(或YTBB)中选择了366个视频序列（14小时视频）[203]以提供具有连续属性的开发和测试集。带注释的缺席标签显示目标不存在于框架中。此外，该数据集还包括连续属性，这些属性的数量已由BB注释和元数据测量。BUAA-PRO数据集[194]是一个基于分割的基准数据集，用于解决BBs中不可避免的非目标元素问题。它由来自NUS-PRO的150个视频序列组成，主要有三种刚性物体（即飞机、船、汽车、直升机和摩托车)、运动员(包括篮球、体操、手球、赛车、足球和网球）和行人。它不仅利用了NUS-PRO的相同属性，而且还利用了基于层次的遮挡属性（即无遮挡、部分遮挡和完全遮挡)的基于分割掩码的版本）。大规模单目标跟踪(LaSOT)基准数据集[196]是为了解决视觉跟踪数据集小规模、缺乏高质量、密集注释、短视频序列和类别偏差等问题而开发的。对象类别来自Image Net和一些视觉跟踪应用程序（如无人机），每个类别的视频数量相等。根据帕累托原理（训练80%，测试20%），将LaSOT数据划分为训练和测试子集，分别包括1120(2.3M帧)和280(690K帧)视频序列。大型高多样性基准数据集，称为GOT-10k[195]，包括来自WordNet的语义层次[204]拆分到训练、验证和测试集的一万多个视频。视频序列被分类为563类运动对象和87类运动，以涵盖尽可能多的挑战模式在现实世界的场景。 GOT-10k具有类似于Ox Uv A的信息属性。

3.2 Evaluation Metrics

为了在大规模数据集上进行实验比较，视觉跟踪方法由两个基本的性能度量和性能图评估类别进行评估。这些指标简述如下。

3.2.1 Performance Measures

为了反映视觉跟踪器的几个视图，提出了各种性能度量。这些度量试图从准确性、鲁棒性和跟踪速度的互补度量来直观地解释性能比较。以下是对这些措施的简要调查。

• Center location error (CLE):

通过视觉跟踪方法将CLE定义为目标精确地面真相位置与估计位置之间的平均欧氏距离。 CLE是最古老的度量，它不仅对数据集注释敏感，不考虑跟踪故障，而且忽略目标BB并导致重大错误。

• Accuracy:

为了实现视觉跟踪精度，首先将重叠分数计算为 $S=\left | \frac{b_t\cap b_g}{b_t\cup b_g} \right |$ ,其中 $b_g,b_t,\cap ,\cup ,\left | . \right |$ 分别表示the ground-truth BB, an estimated BB by a visual tracking method, intersection operator, union operator, and the number of pixels in the resulted region。通过考虑一定的阈值，重叠分数表示视觉跟踪器在一帧中的成功。然后，在跟踪过程中，当视觉跟踪器的估计与地面真实的估计重叠时，通过平均重叠分数(AOS)来计算精度。这个度量联合考虑位置和区域来测量估计目标的漂移率，直到它的失败。

• Robustness/failure score:

鲁棒性或失败评分定义为跟踪器在跟踪任务期间丢失（或漂移）视觉目标时所需的重新初始化的数量。当重叠分数降至零时检测故障。

• Expected average overlap (EAO):

这个分数被解释为准确性和鲁棒性分数的结合。给定N S帧长序列，EAO分数计算为 $\hat{\Phi }_N_s=\left \langle \frac{1}{N_s}\sum _{i=1}^{N_s}\Phi _i \right \rangle$ ，其中 $\Phi _i$ 定义为每帧重叠的平均值，直到序列结束，即使失败导致零重叠。

• Area under curve (AUC):

根据预定义的阈值，AUC评分定义了平均成功率(在0到1之间归一化)。为了根据视觉跟踪方法的总体性能对其进行排序，AUC评分总结了整个序列的视觉跟踪方法的AOS。

3.2.2 Performance Plots

为了计算视觉跟踪方法的性能，通常根据不同的阈值对不同的方法进行评估，以提供更直观的定量比较。在下面，总结了这些度量。

• Precision plot:

给定每个不同阈值的CLE，精确绘图显示视频帧的百分比，其中估计位置的特定阈值的视频帧的百分比。

• Success plot:

考虑到每个阈值计算的各种精度，成功图测量估计重叠和地面真相重叠的帧的百分比大于某一阈值。

• Expected average overlap curve:

对于一个单独长度的视频序列，预期的平均重叠曲线是由特定区间[ $N_{lo},N_{hi}$ ]中的值范围 $\hat{\Phi }=\frac{1}{N_{hi}-N_{lo}}\sum _{N_s=N_{lo}}^{N_{hi}}{\hat{\Phi}_{N_s}}$ 。

• One-pass evaluation with restart (OPER):

OPER是一个有监督的系统，它不断测量跟踪方法的准确性，以便在发生故障时重新初始化它。此外，SRER对SRE的许多评估也执行相同的OPER。

4 EXPERIMENTAL ANALYSES

为了分析最先进的视觉跟踪方法的性能，在四个著名的数据集OTB2013[185]、OTB2015[186]、VOT2018[45]和LaSOT[196]上对45种不同的方法进行了定量比较。由于页面限制，所有的实验结果都可以在https://github.com/MMarvasti/的深度学习-视觉-跟踪-调查上公开。实验中包含的45个基于DL的跟踪器如表6所示。经合组织、CFNet、TRACA、深度STRCF和C-RPN被认为是比较各种数据集性能的基线跟踪器。所有评估都是在IntelI7-9700K3.60G Hz CPU上进行的，CPU有32GB的RAM，并借助MatConvNet工具箱[205]该工具箱使用NVIDIA GeForRTX2080Ti GPU进行计算。OTB和LaSOT工具包根据著名的精度和成功图对视觉跟踪方法进行评估，然后根据AUC评分[185]、[186]对方法进行排序。为了在VOT2018数据集上进行性能比较，根据TraX评估协议对视觉跟踪器进行了评估[197]使用了三种主要的精度、鲁棒性和EAO来提供精度-鲁棒性(AR)图、预期平均重叠曲线和根据五个具有挑战性的视觉属性[45]、[206]、[207]排序图。

4.1 Quantitative Comparisons

根据图中所示的结果。在精度度量方面，前5种视觉跟踪方法分别是OTB2013数据集上的VITAL、MDNet、DAT、ASRCF和SiamDW-SiamRPN、OTB2015数据集上的SiamDW-SiamRPN、ASRCF、VITAL、SiamRPN和MDNet，以及LaSOT数据集上的C-RPN、MDNet/VITAL、SiamFC/StructSiam、ASRCF和DSiam。在成功度量方面，OTB2013数据集上的ASRCF、VITAL、MDNet、DAT和SiamRPN、OTB2015数据集上的SiamRPN、SANet、ASRCF、VITAL和MDNet以及LaSOT数据集上的C-RPN、MDNet、VITAL、ASRCF和SiamFC分别取得了最好的性能。在VOT2018数据集上(见图。在精度测量方面，前5名视觉跟踪器是暹罗面具、暹罗RPN、大暹罗RPN、C-RPN和暹罗DW-SiamRPN，而UPDT、LSART、深度STRCF、暹罗面具和暹罗RPN/DRT分别具有最佳的鲁棒性。另一方面，基于两种精度-成功度量的最佳视觉跟踪方法(见图。 4)是OTB2013数据集上的VITAL、MDNet、ASRCF、DAT和SiamRPN，OTB2015数据集上的SiamRPN、ASRCF、VITAL、SiamDW-SiamRPN和MDNet，以及LaSOT数据集上的C-RPN、MDNet、VITAL、SiamFC和ASRCF/StructSiam。在VOT2018数据集上，暹罗RPN、暹罗面具、UPDT、DRT和深度STRCF是基于EAO评分的最佳跟踪器。此外，SiamRPN、UPDT、MCPF、LSART和深度STRCF分别获得了最佳的AUC分数，而SiamRPN、SiamRPN、CFNet、DAT和DCFNet分别是最快的视觉跟踪器（见表7）。根据结果(即，图。 4，无花果。 5，and Table7)，the best visual tracking methods that repeated their desirable performance on different visual tracking datasets are the VITAL[121]，MDNet[68]，DAT[137]，ASRCF[155]，SiamDW-SiamRPN[56]，SiamRPN[55]，C-RPN[157]，StructSiam[157]，SiamMask[57]，DaSiamRPN[111]，UPDT[109]，LSART[127]，DeepSTRCF[122]，and DRT[126]。这些方法将在在4.3节进行调查。

4.2 Most Challenging Attributes per Benchmark Dataset

继VOT挑战[43]-[45]已经指定了视觉跟踪的最具挑战性的属性，本调查不仅在VOT数据集上确定了基于DL的方法的这些属性，而且第一次在OTB和LaSOT数据集上提供了最具挑战性的属性。这些属性是由VOT上每个属性的中值精度和鲁棒性决定的，或者相当于OTB2015和LaSOT数据集上每个属性的中值精度和成功。表8显示了每个基准数据集的第一到第五个具有挑战性的属性。此外，处理这些属性的最佳跟踪器也被图所研究。五到图。 7. 根据表8中的结果，根据精度度量和OCC、MOC和IV，根据鲁棒性度量，VOT2018数据集上最具挑战性的属性是OCC、SV和IV。基于精度度量，OTB2015上的OV、OCC和LR以及LaSOT数据集上的FM、OV和DEF是视觉跟踪方法最具挑战性的属性。最后，OTB2015数据集上的DEF、OV和LR以及LaSOT数据集上的FM、OV和FOC是基于成功度量的最具挑战性的。综上所述，选择OCC、OV、FM、DEF、IV和LR作为最具挑战性的属性，可以有效地影响基于DL的视觉跟踪方法的性能。

另一方面，根据OCC、SV和IV，VOT2018数据集上最精确的视觉跟踪方法分别是SiamRPN[55]、SiamMask[57]和SiamMask。此外，根据OCC、MOC和IV，DRT[126]、UPDT[109]和Siam掩码[57]/CFCF[144]视觉跟踪器是VOT2018数据集上最健壮的跟踪器。在成功度量方面，SiamRPN[55]是处理DEF和OV属性的最佳视觉跟踪方法，而Siam-MCF[117]是处理OTB2015数据集上LR视频中视觉跟踪的最佳方法。 ASRCF[155]、ECO[94]和SiamDW-SiamRPN[56]是OTB-2015数据集上面向OV、OCC和DEF属性的精度度量的最佳跟踪器。除了MDNet[68]在精度度量方面是最好的方法的FM属性外，C-RPN[157]在精度和成功度量方面在LaSOT基准数据集的其他具有挑战性的属性上具有优越的性能。根据总体和基于属性的比较，C-RPN、MDNet和VITAL是LaSOT数据集上的前3名跟踪者。

虽然VOT2018数据集为单个视频序列提供基于帧的属性，但每个视频序列都为OTB和LaSOT数据集注释了多个属性。根据这一差异，对基于属性的VOT2018进行了比较，以根据具体条件推断出最佳策略。如图所示5，基于DCF的方法在其他方法中的失败较少，而基于SNN的方法在估计的BBs和地面真相之间获得了更多的重叠。基于暹罗RPN的方法（即[55]-[57]、[111])通过采用更深、更宽的骨干网络(包括分类和回归分支），准确地处理CM、IV、MC、OCC或SC属性下的场景，以下策略将提高Dlbassed方法在实际场景特定条件下的鲁棒性。通过考虑手工和深度特征[109]、[122]、[126]、时间正则化项[122]、可靠性项[126]、数据增强[109]的融合，以及ResNet-50模型的开发，基于DCF的方法对CM属性具有理想的鲁棒性。要有效地处理IV属性，关注目标与其背景之间的辨别力是首要问题。训练相关滤波器代价函数的全卷积网络、空间感知KRR和空间感知CNN以及采用半监督视频对象分割等策略，提高了基于DL的跟踪器在发生显著IV时的鲁棒性。为了稳健地处理MC和OCC属性，基于DCF和CNN的方法表现最好。然而，基于SNN的方法借助区域提案子网络和提案细化，可以在严重的规模变化下稳健地估计最紧的BB。

Reference

[1] M.-f. Chang, J. Lambert, P. Sangkloy, J. Singh, B. Sławomir,

A. Hartnett, D. Wang, P. Carr, S. Lucey, D. Ramanan, and J. Hays,

“Argoverse: 3D tracking and forecasting with rich maps,” in Proc.

IEEE CVPR , 2019, pp. 8748–8757.

[2] W. Luo, B. Yang, and R. Urtasun, “Fast and furious: Real-time

end-to-end 3D detection, tracking and motion forecasting with a

single convolutional net,” in Proc. IEEE CVPR , 2018, pp. 3569–

3577.

[3] P. Gir˜ ao, A. Asvadi, P. Peixoto, and U. Nunes, “3D object track

ing in driving environment: A short review and a benchmark

dataset,” in Proc. IEEE ITSC , 2016, pp. 7–12.

[4] C. Li, X. Liang, Y. Lu, N. Zhao, and J. Tang, “RGB-T object

tracking: Benchmark and baseline,” Pattern Recognit. , vol. 96,

2019.

[5] H. V. Hoof, T. V. D. Zant, and M. Wiering, “Adaptive visual face

tracking for an autonomous robot,” in Proc. Belgian/Netherlands

Artifificial Intelligence Conference , 2011.

[6] C. Robin and S. Lacroix, “Multi-robot target detection and track

ing: Taxonomy and survey,” Autonomous Robots , vol. 40, no. 4, pp.

729–760, 2016.

[7] B. Risse, M. Mangan, B. Webb, and L. Del Pero, “Visual tracking

of small animals in cluttered natural environments using a freely

moving camera,” in Proc. IEEE ICCVW , 2018, pp. 2840–2849.

[8] Y. Luo, D. Yin, A. Wang, and W. Wu, “Pedestrian tracking in

surveillance video based on modifified CNN,” Multimed. Tools

Appl. , vol. 77, no. 18, pp. 24 041–24 058, 2018.

[9] A. Brunetti, D. Buongiorno, G. F. Trotta, and V. Bevilacqua,

“Computer vision and deep learning techniques for pedestrian

detection and tracking: A survey,” Neurocomputing , vol. 300, pp.

17–33, 2018.

[10] L. Hou, W. Wan, J. N. Hwang, R. Muhammad, M. Yang, and

K. Han, “Human tracking over camera networks: A review,”

EURASIP Journal on Advances in Signal Processing , vol. 2017, no. 1,

2017.

[11] G. Klein, “Visual tracking for augmented reality,” Phd Thesis , pp.

1–182, 2006.

[12] M. Klopschitz, G. Schall, D. Schmalstieg, and G. Reitmayr, “Vi

sual tracking for augmented reality,” in Proc. IPIN , 2010, pp. 1–4.

[13] F. Ababsa, M. Maidi, J. Y. Didier, and M. Mallem, “Vision-based

tracking for mobile augmented reality,” in Studies in Computa

tional Intelligence . Springer, 2008, vol. 120, pp. 297–326.

[14] J. Hao, Y. Zhou, G. Zhang, Q. Lv, and Q. Wu, “A review of target

tracking algorithm based on UAV,” in Proc. IEEE CBS , 2019, pp.

328–333.

[15] M. Manafififard, H. Ebadi, and H. Abrishami Moghaddam, “A

survey on player tracking in soccer videos,” Comput. Vis. Image

Und. , vol. 159, pp. 19–46, 2017.

[16] D. Bouget, M. Allan, D. Stoyanov, and P. Jannin, “Vision-based

and marker-less surgical tool detection and tracking: A review of

the literature,” Medical Image Analysis , vol. 35, pp. 633–654, 2017.

[17] V. Ulman, M. Maˇ ska, and et al., “An objective comparison of cell

tracking algorithms,” Nature Methods , vol. 14, no. 12, pp. 1141–

1152, 2017.

[18] T. He, H. Mao, J. Guo, and Z. Yi, “Cell tracking using deep neural

networks with multi-task learning,” Image Vision Comput. , vol. 60,

pp. 142–153, 2017.

[19] D. E. Hernandez, S. W. Chen, E. E. Hunter, E. B. Steager, and

V. Kumar, “Cell tracking with deep learning and the Viterbi

algorithm,” in Proc. MARSS , 2018, pp. 1–6.

[20] J. Luo, Y. Han, and L. Fan, “Underwater acoustic target tracking:

A review,” Sensors , vol. 18, no. 1, p. 112, 2018.

[21] D. S. Bolme, J. R. Beveridge, B. A. Draper, and Y. M. Lui, “Visual

object tracking using adaptive correlation fifilters,” in Proc. IEEE

CVPR , 2010, pp. 2544–2550.

[22] J. F. Henriques, R. Caseiro, P. Martins, and J. Batista, “High-speed

tracking with kernelized correlation fifilters,” IEEE Trans. Pattern

Anal. Mach. Intell. , vol. 37, no. 3, pp. 583–596, 2015.

[23] M. Danelljan, G. Hager, F. S. Khan, and M. Felsberg, “Discrimina

tive Scale Space Tracking,” IEEE Trans. Pattern Anal. Mach. Intell. ,

vol. 39, no. 8, pp. 1561–1575, 2017.

[24] S. M. Marvasti-Zadeh, H. Ghanei-Yakhdan, and S. Kasaei,

“Rotation-aware discriminative scale space tracking,” in Iranian

Conf. Electrical Engineering (ICEE) , 2019, pp. 1272–1276.

[25] G. Boudoukh, I. Leichter, and E. Rivlin, “Visual tracking of object

silhouettes,” in Proc. ICIP , 2009, pp. 3625–3628.

[26] C. Xiao and A. Yilmaz, “Effificient tracking with distinctive target

colors and silhouette,” in Proc. ICPR , 2016, pp. 2728–2733.

[27] V. Bruni and D. Vitulano, “An improvement of kernel-based

object tracking based on human perception,” IEEE Trans. Syst.,

Man, Cybern. Syst. , vol. 44, no. 11, pp. 1474–1485, 2014.

[28] W. Chen, B. Niu, H. Gu, and X. Zhang, “A novel strategy for

kernel-based small target tracking against varying illumination

with multiple features fusion,” in Proc. ICICT , 2018, pp. 135–138.

[29] D. H. Kim, H. K. Kim, S. J. Lee, W. J. Park, and S. J. Ko, “Kernel

based structural binary pattern tracking,” IEEE Trans. Circuits

Syst. Video Technol. , vol. 24, no. 8, pp. 1288–1300, 2014.

[30] I. I. Lychkov, A. N. Alfifimtsev, and S. A. Sakulin, “Tracking of

moving objects with regeneration of object feature points,” in

Proc. GloSIC , 2018, pp. 1–6.

[31] M. Ighrayene, G. Qiang, and T. Benlefki, “Making Bayesian

tracking and matching by the BRISK interest points detec

tor/descriptor cooperate for robust object tracking,” in Proc. IEEE

ICSIP , 2017, pp. 731–735.

[32] N. Dalal and B. Triggs, “Histograms of oriented gradients for

human detection,” in Proc. IEEE CVPR , 2005, pp. 886–893.

[33] J. Van De Weijer, C. Schmid, and J. Verbeek, “Learning color

names from real-world images,” in Proc. IEEE CVPR , 2007, pp.

1–8.

[34] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classififi-

cation with deep convolutional neural networks,” in Proc. NIPS ,

vol. 2, 2012, pp. 1097–1105.

[35] K. Chatfifield, K. Simonyan, A. Vedaldi, and A. Zisserman, “Re

turn of the devil in the details: Delving deep into convolutional

nets,” in Proc. BMVC , 2014, pp. 1–11.

[36] K. Simonyan and A. Zisserman, “Very deep convolutional net

works for large-scale image recognition,” in Proc. ICLR , 2014, pp.

1–14.

[37] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov,

D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with

convolutions,” in Proc. IEEE CVPR , 2015, pp. 1–9.

[38] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for

image recognition,” in Proc. IEEE CVPR , 2016, pp. 770–778.

[39] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,

Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and

L. Fei-Fei, “ImageNet large scale visual recognition challenge,”

IJCV , vol. 115, no. 3, pp. 211–252, 2015.

[40] M. Kristan, R. Pflflugfelder, A. Leonardis, J. Matas, F. Porikli, and

et al., “The visual object tracking VOT2013 challenge results,” in

Proc. ICCV , 2013, pp. 98–111.

[41] M. Kristan, R. Pflflugfelder, A. Leonardis, J. Matas, and et al., “The

visual object tracking VOT2014 challenge results,” in Proc. ECCV ,

2015, pp. 191–217.

[42] M. Kristan, J. Matas, A. Leonardis, M. Felsberg, and et al., “The

visual object tracking VOT2015 challenge results,” in Proc. IEEE

ICCV , 2015, pp. 564–586.

[43] M. Kristan, J. Matas, A. Leonardis, M. Felsberg, R. Pflflugfelder,

and et al., “The visual object tracking VOT2016 challenge re

sults,” in Proc. ECCVW , 2016, pp. 777–823.

[44] M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pflflugfelder,

L. C. Zajc, and et al., “The visual object tracking VOT2017

challenge results,” in Proc. IEEE ICCVW , 2017, pp. 1949–1972.

[45] M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pflflugfelder,

and et al., “The sixth visual object tracking VOT2018 challenge

results,” in Proc. ECCVW , 2019, pp. 3–53.

[46] M. Kristan and et al., “The seventh visual object tracking

VOT2019 challenge results,” in Proc. ICCVW , 2019.

[47] A. Yilmaz, O. Javed, and M. Shah, “Object tracking: A survey,”

ACM Computing Surveys , vol. 38, no. 4, Dec. 2006.

[48] A. W. Smeulders, D. M. Chu, R. Cucchiara, S. Calderara, A. De

hghan, and M. Shah, “Visual tracking: An experimental survey,”

IEEE Trans. Pattern Anal. Mach. Intell. , vol. 36, no. 7, pp. 1442–

1468, 2014.

[49] H. Yang, L. Shao, F. Zheng, L. Wang, and Z. Song, “Recent ad

vances and trends in visual tracking: A review,” Neurocomputing ,

vol. 74, no. 18, pp. 3823–3831, 2011.

[50] X. Li, W. Hu, C. Shen, Z. Zhang, A. Dick, and A. Van Den Hengel,

“A survey of appearance models in visual object tracking,” ACM

Trans. Intell. Syst. Tec. , vol. 4, no. 4, pp. 58:1—-58:48, 2013.

[51] M. Fiaz, A. Mahmood, and S. K. Jung, “Tracking noisy targets:

A review of recent object tracking approaches,” 2018. [Online].

Available: http://arxiv.org/abs/1802.03098

[52] M. Fiaz, A. Mahmood, S. Javed, and S. K. Jung, “Handcrafted

and deep trackers: Recent visual object tracking approaches and

trends,” ACM Computing Surveys , vol. 52, no. 2, pp. 43:1—-43:44,

2019.

[53] P. Li, D. Wang, L. Wang, and H. Lu, “Deep visual tracking:

Review and experimental comparison,” Pattern Recognit. , vol. 76,

pp. 323–338, 2018.

[54] R. Pflflugfelder, “An in-depth analysis of visual tracking

with Siamese neural networks,” 2017. [Online]. Available:

http://arxiv.org/abs/1707.00569

[55] B. Li, W. Wu, Q. Wang, F. Zhang, J. Xing, and J. Yan,

“SiamRPN++: Evolution of Siamese visual tracking with very

deep networks,” 2018. [Online]. Available: http://arxiv.org/abs/

1812.11703

[56] Z. Zhang and H. Peng, “Deeper and wider Siamese networks

for real-time visual tracking,” 2019. [Online]. Available:

http://arxiv.org/abs/1901.01660

[57] Q. Wang, L. Zhang, L. Bertinetto, W. Hu, and P. H. S. Torr, “Fast

online object tracking and segmentation: A unifying approach,”

2018. [Online]. Available: http://arxiv.org/abs/1812.05050

[58] X. Wang, C. Li, B. Luo, and J. Tang, “SINT++: Robust visual

tracking via adversarial positive instance generation,” in Proc.

IEEE CVPR , 2018, pp. 4864–4873.

[59] C. Ma, J. B. Huang, X. Yang, and M. H. Yang, “Hierarchical

convolutional features for visual tracking,” in Proc. IEEE ICCV ,

2015, pp. 3074–3082.

[60] M. Danelljan, G. Hager, F. S. Khan, and M. Felsberg, “Convo

lutional features for correlation fifilter based visual tracking,” in

Proc. IEEE ICCVW , 2016, pp. 621–629.

[61] L. Wang, W. Ouyang, X. Wang, and H. Lu, “Visual tracking

with fully convolutional networks,” in Proc. IEEE ICCV , 2015,

pp. 3119–3127.

[62] S. Hong, T. You, S. Kwak, and B. Han, “Online tracking by

learning discriminative saliency map with convolutional neural

network,” in Proc. ICML , 2015, pp. 597–606.

[63] Y. Zha, T. Ku, Y. Li, and P. Zhang, “Deep position-sensitive

tracking,” IEEE Trans. Multimedia , no. 8, 2019.

[64] M. Danelljan, A. Robinson, F. S. Khan, and M. Felsberg, “Beyond

correlation fifilters: Learning continuous convolution operators for

visual tracking,” in Proc. ECCV , vol. 9909 LNCS, 2016, pp. 472–

488.

[65] D. Held, S. Thrun, and S. Savarese, “Learning to track at 100 FPS

with deep regression networks,” in Proc. ECCV , 2016, pp. 749–

765.

[66] L. Bertinetto, J. Valmadre, J. F. Henriques, A. Vedaldi, and P. H.

Torr, “Fully-convolutional Siamese networks for object tracking,”

in Proc. ECCV , 2016, pp. 850–865.

[67] R. Tao, E. Gavves, and A. W. Smeulders, “Siamese instance search

for tracking,” in Proc. IEEE CVPR , 2016, pp. 1420–1429.

[68] H. Nam and B. Han, “Learning multi-domain convolutional

neural networks for visual tracking,” in Proc. IEEE CVPR , 2016,

pp. 4293–4302.

[69] Y. Qi, S. Zhang, L. Qin, H. Yao, Q. Huang, J. Lim, and M. H.

Yang, “Hedged deep tracking,” in Proc. IEEE CVPR , 2016, pp.

4303–4311.

[70] L. Wang, W. Ouyang, X. Wang, and H. Lu, “STCT: Sequentially

training convolutional networks for visual tracking,” in Proc.

IEEE CVPR , 2016, pp. 1373–1381.

[71] G. Zhu, F. Porikli, and H. Li, “Robust visual tracking with deep

convolutional neural network based object proposals on PETS,”

in Proc. IEEE CVPRW , 2016, pp. 1265–1272.

[72] H. Li, Y. Li, and F. Porikli, “DeepTrack: Learning discriminative

feature representations online for robust visual tracking,” IEEE

Trans. Image Process. , vol. 25, no. 4, pp. 1834–1848, 2016.

[73] K. Zhang, Q. Liu, Y. Wu, and M. H. Yang, “Robust visual tracking

via convolutional networks without training,” IEEE Trans. Image

Process. , vol. 25, no. 4, pp. 1779–1792, 2016.

[74] C. Ma, Y. Xu, B. Ni, and X. Yang, “When correlation fifilters meet

convolutional neural networks for visual tracking,” IEEE Signal

Process. Lett. , vol. 23, no. 10, pp. 1454–1458, 2016.

[75] H. Nam, M. Baek, and B. Han, “Modeling and propagating

CNNs in a tree structure for visual tracking,” 2016. [Online].

Available: http://arxiv.org/abs/1608.07242

[76] G. Wu, W. Lu, G. Gao, C. Zhao, and J. Liu, “Regional deep

learning model for visual tracking,” Neurocomputing , vol. 175, no.

PartA, pp. 310–323, 2015.

[77] H. Fan and H. Ling, “Parallel tracking and verifying: A frame

work for real-time and high accuracy visual tracking,” in Proc.

IEEE ICCV , 2017, pp. 5487–5495.

[78] H. Fan and H.Ling, “Parallel tracking and verifying,” IEEE Trans.

Image Process. , vol. 28, no. 8, pp. 4130–4144, 2019.

[79] Y. Song, C. Ma, L. Gong, J. Zhang, R. W. Lau, and M. H. Yang,

“CREST: Convolutional residual learning for visual tracking,” in

Proc. ICCV , 2017, pp. 2574–2583.

[80] Z. Zhu, G. Huang, W. Zou, D. Du, and C. Huang, “UCT: Learning

unifified convolutional networks for real-time visual tracking,” in

Proc. ICCVW , 2018, pp. 1973–1982.

[81] Q. Guo, W. Feng, C. Zhou, R. Huang, L. Wan, and S. Wang,

“Learning dynamic Siamese network for visual object tracking,”

in Proc. IEEE ICCV , 2017, pp. 1781–1789.

[82] Z. Teng, J. Xing, Q. Wang, C. Lang, S. Feng, and Y. Jin, “Robust

object tracking based on temporal and spatial deep networks,” in

Proc. IEEE ICCV , 2017, pp. 1153–1162.

[83] Z. He, Y. Fan, J. Zhuang, Y. Dong, and H. Bai, “Correlation fifilters

with weighted convolution responses,” in Proc. ICCVW , 2018, pp.

1992–2000.

[84] T. Yang and A. B. Chan, “Recurrent fifilter learning for visual

tracking,” in Proc. ICCVW , 2018, pp. 2010–2019.

[85] F. Li, Y. Yao, P. Li, D. Zhang, W. Zuo, and M. H. Yang, “Integrating

boundary and center correlation fifilters for visual tracking with

aspect ratio variation,” in Proc. IEEE ICCVW , 2018, pp. 2001–2009.

[86] X. Wang, H. Li, Y. Li, F. Porikli, and M. Wang, “Deep tracking

with objectness,” in Proc. ICIP , 2018, pp. 660–664.

[87] X. Xu, B. Ma, H. Chang, and X. Chen, “Siamese recurrent archi

tecture for visual tracking,” in Proc. ICIP , 2018, pp. 1152–1156.

[88] L. Yang, P. Jiang, F. Wang, and X. Wang, “Region-based fully

convolutional Siamese networks for robust real-time visual track

ing,” in Proc. ICIP , 2017, pp. 2567–2571.

[89] T. Kokul, C. Fookes, S. Sridharan, A. Ramanan, and U. A. J.

Pinidiyaarachchi, “Gate connected convolutional neural network

for object tracking,” in Proc. ICIP , 2017, pp. 2602–2606.

[90] K. Dai, Y. Wang, and X. Yan, “Long-term object tracking based on

Siamese network,” in Proc. ICIP , 2017, pp. 3640–3644.

[91] B. Akok, F. Gurkan, O. Kaplan, and B. Gunsel, “Robust object

tracking by interleaving variable rate color particle fifiltering and

deep learning,” in Proc. ICIP , 2017, pp. 3665–3669.

[92] R. J. Mozhdehi and H. Medeiros, “Deep convolutional particle

fifilter for visual tracking,” in Proc. IEEE ICIP , 2017, pp. 3650–3654.

[93] J. Valmadre, L. Bertinetto, J. Henriques, A. Vedaldi, and P. H. Torr,

“End-to-end representation learning for correlation fifilter based

tracking,” in Proc. IEEE CVPR , 2017, pp. 5000–5008.

[94] M. Danelljan, G. Bhat, F. Shahbaz Khan, and M. Felsberg, “ECO:

Effificient convolution operators for tracking,” in Proc. IEEE CVPR ,

2017, pp. 6931–6939.

[95] A. Lukeˇ ziˇ c, T. Voj ´ ı, L. ˇ CehovinZajc, J. Matas, and M. Kristan,

“Discriminative correlation fifilter tracker with channel and spatial

reliability,” IJCV , vol. 126, no. 7, pp. 671–688, 2018.

[96] T. Zhang, C. Xu, and M. H. Yang, “Multi-task correlation particle

fifilter for robust object tracking,” in Proc. IEEE CVPR , 2017, pp.

4819–4827.

[97] B. Han, J. Sim, and H. Adam, “BranchOut: Regularization for

online ensemble tracking with convolutional neural networks,”

in Proc. IEEE CVPR , 2017, pp. 521–530.

[98] M. Wang, Y. Liu, and Z. Huang, “Large margin object tracking

with circulant feature maps,” in Proc. IEEE CVPR , 2017, pp. 4800–

4808.

[99] L. Zhang, J. Varadarajan, P. N. Suganthan, N. Ahuja, and

P. Moulin, “Robust visual tracking using oblique random

forests,” in Proc. IEEE CVPR , 2017, pp. 5825–5834.

[100] J. Choi, H. J. Chang, S. Yun, T. Fischer, Y. Demiris, and J. Y.

Choi, “Attentional correlation fifilter network for adaptive visual

tracking,” in Proc. IEEE CVPR , 2017, pp. 4828–4837.

[101] H. Fan and H. Ling, “SANet: Structure-aware network for visual

tracking,” in Proc. IEEE CVPRW , 2017, pp. 2217–2224.

[102] Q. Wang, J. Gao, J. Xing, M. Zhang, and W. Hu, “DCFNet:

Discriminant correlation fifilters network for visual tracking,”

2017. [Online]. Available: http://arxiv.org/abs/1704.04057

[103] J. Guo and T. Xu, “Deep ensemble tracking,” IEEE Signal Process.

Lett. , vol. 24, no. 10, pp. 1562–1566, 2017.

[104] J. Gao, T. Zhang, X. Yang, and C. Xu, “Deep relative tracking,”

IEEE Trans. Image Process. , vol. 26, no. 4, pp. 1845–1858, 2017.

[105] Z. Chi, H. Li, H. Lu, and M. H. Yang, “Dual deep network for

visual tracking,” IEEE Trans. Image Process. , vol. 26, no. 4, pp.

2005–2015, 2017.

[106] P. Zhang, T. Zhuo, W. Huang, K. Chen, and M. Kankanhalli,

“Online object tracking based on CNN with spatial-temporal

saliency guided sampling,” Neurocomputing , vol. 257, pp. 115–

127, 2017.

[107] X. Dong and J. Shen, “Triplet loss in Siamese network for object

tracking,” in Proc. ECCV , vol. 11217 LNCS, 2018, pp. 472–488.

[108] X. Lu, C. Ma, B. Ni, X. Yang, I. Reid, and M. H. Yang, “Deep

regression tracking with shrinkage loss,” in Proc. ECCV , 2018,

pp. 369–386.

[109] G. Bhat, J. Johnander, M. Danelljan, F. S. Khan, and M. Felsberg,

“Unveiling the power of deep tracking,” in Proc. ECCV , 2018, pp.

493–509.

[110] B. Chen, D. Wang, P. Li, S. Wang, and H. Lu, “Real-time ‘actor

critic’ tracking,” in Proc. ECCV , 2018, pp. 328–345.

[111] Z. Zhu, Q. Wang, B. Li, W. Wu, J. Yan, and W. Hu, “Distractor

aware Siamese networks for visual object tracking,” in Proc.

ECCV , vol. 11213 LNCS, 2018, pp. 103–119.

[112] I. Jung, J. Son, M. Baek, and B. Han, “Real-time MDNet,” in Proc.

ECCV , 2018, pp. 89–104.

[113] Y. Zhang, L. Wang, J. Qi, D. Wang, M. Feng, and H. Lu, “Struc

tured Siamese network for real-time visual tracking,” in Proc.

ECCV , 2018, pp. 355–370.

[114] H. Lee, S. Choi, and C. Kim, “A memory model based on the

Siamese network for long-term tracking,” in Proc. ECCVW , 2019,

pp. 100–115.

[115] M. Che, R. Wang, Y. Lu, Y. Li, H. Zhi, and C. Xiong, “Channel

pruning for visual tracking,” in Proc. ECCVW , 2019, pp. 70–82.

[116] E. Burceanu and M. Leordeanu, “Learning a robust society of

tracking parts using co-occurrence constraints,” in Proc. ECCVW ,

2019, pp. 162–178.

[117] H. Morimitsu, “Multiple context features in Siamese networks

for visual object tracking,” in Proc. ECCVW , 2019, pp. 116–131.

[118] A. He, C. Luo, X. Tian, and W. Zeng, “Towards a better match in

Siamese network based visual object tracker,” in Proc. ECCVW ,

2019, pp. 132–147.

[119] L. Rout, D. Mishra, and R. K. S. S. Gorthi, “WAEF: Weighted

aggregation with enhancement fifilter for visual object tracking,”

in Proc. ECCVW , 2019, pp. 83–99.

[120] J. Choi, H. J. Chang, T. Fischer, S. Yun, K. Lee, J. Jeong, Y. Demiris,

and J. Y. Choi, “Context-aware deep feature compression for

high-speed visual tracking,” in Proc. IEEE CVPR , 2018, pp. 479–

488.

[121] Y. Song, C. Ma, X. Wu, L. Gong, L. Bao, W. Zuo, C. Shen, R. W.

Lau, and M. H. Yang, “VITAL: Visual tracking via adversarial

learning,” in Proc. IEEE CVPR , 2018, pp. 8990–8999.

[122] F. Li, C. Tian, W. Zuo, L. Zhang, and M. H. Yang, “Learning

spatial-temporal regularized correlation fifilters for visual track

ing,” in Proc. IEEE CVPR , 2018, pp. 4904–4913.

[123] B. Li, J. Yan, W. Wu, Z. Zhu, and X. Hu, “High performance

visual tracking with Siamese region proposal network,” in Proc.

IEEE CVPR , 2018, pp. 8971–8980.

[124] A. He, C. Luo, X. Tian, and W. Zeng, “A twofold Siamese network

for real-time object tracking,” in Proc. IEEE CVPR , 2018, pp. 4834–

4843.

[125] Z. Zhu, W. Wu, W. Zou, and J. Yan, “End-to-end flflow correlation

tracking with spatial-temporal attention,” in Proc. IEEE CVPR ,

2018, pp. 548–557.

[126] C. Sun, D. Wang, H. Lu, and M. H. Yang, “Correlation tracking

via joint discrimination and reliability learning,” in Proc. IEEE

CVPR , 2018, pp. 489–497.

[127] C. Sun, D. Wang, H. Lu, and M. Yang, “Learning spatial-aware

regressions for visual tracking,” in Proc. IEEE CVPR , 2018, pp.

8962–8970.

[128] Q. Wang, Z. Teng, J. Xing, J. Gao, W. Hu, and S. Maybank,

“Learning attentions: Residual attentional Siamese network for

high performance online visual tracking,” in Proc. IEEE CVPR ,

2018, pp. 4854–4863.

[129] N. Wang, W. Zhou, Q. Tian, R. Hong, M. Wang, and H. Li, “Multi

cue correlation fifilters for robust visual tracking,” in Proc. IEEE

CVPR , 2018, pp. 4844–4853.

[130] R. J. Mozhdehi, Y. Reznichenko, A. Siddique, and H. Medeiros,

“Deep convolutional particle fifilter with adaptive correlation

maps for visual tracking,” in Proc. ICIP , 2018, pp. 798–802.

[131] Z. Lin and C. Yuan, “Robust visual tracking in low-resolution

sequence,” in Proc. ICIP , 2018, pp. 4103–4107.

[132] M. Cen and C. Jung, “Fully convolutional Siamese fusion net

works for object tracking,” in Proc. ICIP , 2018, pp. 3718–3722.

[133] G. Wang, B. Liu, W. Li, and N. Yu, “Flow guided Siamese network

for visual tracking,” in Proc. ICIP , 2018, pp. 231–235.

[134] K. Dai, Y. Wang, X. Yan, and Y. Huo, “Fusion of template

matching and foreground detection for robust visual tracking,”

in Proc. ICIP , 2018, pp. 2720–2724.

[135] G. Liu and G. Liu, “Integrating multi-level convolutional features

for correlation fifilter tracking,” in Proc. ICIP , 2018, pp. 3029–3033.

[136] J. Guo, T. Xu, S. Jiang, and Z. Shen, “Generating reliable online

adaptive templates for visual tracking,” in Proc. ICIP , 2018, pp.

226–230.

[137] S. Pu, Y. Song, C. Ma, H. Zhang, and M. H. Yang, “Deep attentive

tracking via reciprocative learning,” in Proc. NIPS , 2018, pp. 1931–

1941.

[138] X. Jiang, X. Zhen, B. Zhang, J. Yang, and X. Cao, “Deep collabo

rative tracking networks,” in Proc. BMVC , 2018, p. 87.

[139] D. Ma, W. Bu, and X. Wu, “Multi-scale recurrent tracking via

pyramid recurrent network and optical flflow,” in Proc. BMVC ,

2018, p. 242.

[140] C. Ma, J. B. Huang, X. Yang, and M. H. Yang, “Robust visual

tracking via hierarchical convolutional features,” IEEE Trans.

Pattern Anal. Mach. Intell. , 2018.

[141] Z. Han, P. Wang, and Q. Ye, “Adaptive discriminative deep

correlation fifilter for visual object tracking,” IEEE Trans. Circuits

Syst. Video Technol. , 2018.

[142] K. Chen and W. Tao, “Once for all: A two-flflow convolutional

neural network for visual tracking,” IEEE Trans. Circuits Syst.

Video Technol. , vol. 28, no. 12, pp. 3377–3386, 2018.

[143] S. Li, S. Zhao, B. Cheng, E. Zhao, and J. Chen, “Robust visual

tracking via hierarchical particle fifilter and ensemble deep fea

tures,” IEEE Trans. Circuits Syst. Video Technol. , 2018.

[144] E. Gundogdu and A. A. Alatan, “Good features to correlate for

visual tracking,” IEEE Trans. Image Process. , vol. 27, no. 5, pp.

2526–2540, 2018.

[145] Y. Xie, J. Xiao, K. Huang, J. Thiyagalingam, and Y. Zhao, “Cor

relation fifilter selection for visual tracking using reinforcement

learning,” IEEE Trans. Circuits Syst. Video Technol. , 2018.

[146] J. Gao, T. Zhang, X. Yang, and C. Xu, “P2T: Part-to-target tracking

via deep regression learning,” IEEE Trans. Image Process. , vol. 27,

no. 6, pp. 3074–3086, 2018.

[147] C. Peng, F. Liu, J. Yang, and N. Kasabov, “Densely connected

discriminative correlation fifilters for visual tracking,” IEEE Signal

Process. Lett. , vol. 25, no. 7, pp. 1019–1023, 2018.

[148] D. Li, G. Wen, Y. Kuai, and F. Porikli, “End-to-end feature

integration for correlation fifilter tracking with channel attention,”

IEEE Signal Process. Lett. , vol. 25, no. 12, pp. 1815–1819, 2018.

[149] C. Ma, J. B. Huang, X. Yang, and M. H. Yang, “Adaptive corre

lation fifilters with long-term and short-term memory for object

tracking,” IJCV , vol. 126, no. 8, pp. 771–796, 2018.

[150] Y. Cao, H. Ji, W. Zhang, and F. Xue, “Learning spatio-temporal

context via hierarchical features for visual tracking,” Signal Proc.:

Image Comm. , vol. 66, pp. 50–65, 2018.

[151] F. Du, P. Liu, W. Zhao, and X. Tang, “Spatialtemporal adaptive

feature weighted correlation fifilter for visual tracking,” Signal

Proc.: Image Comm. , vol. 67, pp. 58–70, 2018.

[152] Y. Kuai, G. Wen, and D. Li, “When correlation fifilters meet fully

convolutional Siamese networks for distractor-aware tracking,”

Signal Proc.: Image Comm. , vol. 64, pp. 107–117, 2018.

[153] W. Gan, M. S. Lee, C. hao Wu, and C. C. Kuo, “Online ob

ject tracking via motion-guided convolutional neural network

(MGNet),” J. VIS. COMMUN. IMAGE R. , vol. 53, pp. 180–191,

2018.

[154] M. Liu, C. B. Jin, B. Yang, X. Cui, and H. Kim, “Occlusion

robust object tracking based on the confifidence of online selected

hierarchical features,” IET Image Proc. , vol. 12, no. 11, pp. 2023–

2029, 2018.

[155] K. Dai, D. Wang, H. Lu, C. Sun, and J. Li, “Visual tracking via

adaptive spatially-regularized correlation fifilters,” in Proc. CVPR ,

2019, pp. 4670–4679.

[156] M. Danelljan, G. Bhat, F. S. Khan, and M. Felsberg, “ATOM:

Accurate tracking by overlap maximization,” 2018. [Online].

Available: http://arxiv.org/abs/1811.07628

[157] H. Fan and H. Ling, “Siamese cascaded region proposal

networks for real-time visual tracking,” 2018. [Online].

Available: http://arxiv.org/abs/1812.06148

[158] J. Gao, T. Zhang, and C. Xu, “Graph convolutional tracking,” in

Proc. CVPR , 2019, pp. 4649–4659.

[159] Y. Sun, C. Sun, D. Wang, Y. He, and H. Lu, “ROI pooled corre

lation fifilters for visual tracking,” in Proc. CVPR , 2019, pp. 5783–

5791.

[160] G. Wang, C. Luo, Z. Xiong, and W. Zeng, “Spm-tracker:

Series-parallel matching for real-time visual object tracking,”

2019. [Online]. Available: http://arxiv.org/abs/1904.04452

[161] X. Li, C. Ma, B. Wu, Z. He, and M.-H. Yang, “Target-aware deep

tracking,” 2019. [Online]. Available: http://arxiv.org/abs/1904.

01772

[162] N. Wang, Y. Song, C. Ma, W. Zhou, W. Liu, and H. Li,

“Unsupervised deep tracking,” 2019. [Online]. Available:

http://arxiv.org/abs/1904.01828

[163] G. Bhat, M. Danelljan, L. V. Gool, and R. Timofte, “Learning

discriminative model prediction for tracking,” 2019. [Online].

Available: http://arxiv.org/abs/1904.07220

[164] F. Zhao, J. Wang, Y. Wu, and M. Tang, “Adversarial deep track

ing,” IEEE Trans. Circuits Syst. Video Technol. , vol. 29, no. 7, pp.

1998–2011, 2019.

[165] H. Li, X. Wang, F. Shen, Y. Li, F. Porikli, and M. Wang, “Real-time

deep tracking via corrective domain adaptation,” IEEE Trans.

Circuits Syst. Video Technol. , vol. 8215, 2019.

[166] B. Zhong, B. Bai, J. Li, Y. Zhang, and Y. Fu, “Hierarchical tracking

by reinforcement learning-based searching and coarse-to-fifine

verifying,” IEEE Trans. Image Process. , vol. 28, no. 5, pp. 2331–

2341, 2019.

[167] J. Gao, T. Zhang, and C. Xu, “SMART: Joint sampling and

regression for visual tracking,” IEEE Trans. Image Process. , vol. 28,

no. 8, pp. 3923–3935, 2019.

[168] H. Hu, B. Ma, J. Shen, H. Sun, L. Shao, and F. Porikli, “Robust

object tracking using manifold regularized convolutional neural

networks,” IEEE Trans. Multimedia , vol. 21, no. 2, pp. 510–521,

2019.

[169] L. Wang, L. Zhang, J. Wang, and Z. Yi, “Memory mechanisms

for discriminative visual tracking algorithms with deep neural

networks,” IEEE Trans. Cogn. Devel. Syst. , 2019.

[170] Y. Kuai, G. Wen, and D. Li, “Multi-task hierarchical feature

learning for real-time visual tracking,” IEEE Sensors J. , vol. 19,

no. 5, pp. 1961–1968, 2019.

[171] X. Cheng, Y. Zhang, L. Zhou, and Y. Zheng, “Visual tracking via

Auto-Encoder pair correlation fifilter,” IEEE Trans. Ind. Electron. ,

2019.

[172] F. Tang, X. Lu, X. Zhang, S. Hu, and H. Zhang, “Deep feature

tracking based on interactive multiple model,” Neurocomputing ,

vol. 333, pp. 29–40, 2019.

[173] X. Lu, B. Ni, C. Ma, and X. Yang, “Learning transform-aware

attentive network for object tracking,” Neurocomputing , vol. 349,

pp. 133–144, 2019.

[174] D. Li, G. Wen, Y. Kuai, J. Xiao, and F. Porikli, “Learning target

aware correlation fifilters for visual tracking,” J. VIS. COMMUN.

IMAGE R. , vol. 58, pp. 149–159, 2019.

[175] B. Chen, P. Li, C. Sun, D. Wang, G. Yang, and H. Lu, “Multi

attention module for visual tracking,” Pattern Recognit. , vol. 87,

pp. 80–93, 2019.

[176] S. Yun, J. J. Y. Choi, Y. Yoo, K. Yun, and J. J. Y. Choi, “Action

decision networks for visual tracking with deep reinforcement

learning,” in Proc. IEEE CVPR , 2016, pp. 2–6.

[177] S. Yun, J. Choi, Y. Yoo, K. Yun, and J. Y. Choi, “Action-driven

visual object tracking with deep reinforcement learning,” IEEE

Trans. Neural Netw. Learn. Syst. , vol. 29, no. 6, pp. 2239–2252, 2018.

[178] W. Zhang, K. Song, X. Rong, and Y. Li, “Coarse-to-fifine UAV target

tracking with deep reinforcement learning,” IEEE Trans. Autom.

Sci. Eng. , pp. 1–9, 2018.

[179] L. Ren, X. Yuan, J. Lu, M. Yang, and J. Zhou, “Deep reinforcement

learning with iterative shift for visual tracking,” in Proc. ECCV ,

2018, pp. 697–713.

[180] D. Zhang, H. Maei, X. Wang, and Y.-F. Wang, “Deep

reinforcement learning for visual object tracking in videos,”

2017. [Online]. Available: http://arxiv.org/abs/1701.08936

[181] C. Huang, S. Lucey, and D. Ramanan, “Learning policies for

adaptive tracking with deep feature cascades,” in Proc. IEEE

ICCV , 2017, pp. 105–114.

[182] X. Dong, J. Shen, W. Wang, Y. Liu, L. Shao, and F. Porikli, “Hy

perparameter optimization for tracking with continuous deep Q

learning,” in Proc. IEEE CVPR , 2018, pp. 518–527.

[183] J. Supancic and D. Ramanan, “Tracking as online decision

making: Learning a policy from streaming videos with reinforce

ment learning,” in Proc. IEEE ICCV , 2017, pp. 322–331.

[184] J. Choi, J. Kwon, and K. M. Lee, “Real-time visual tracking by

deep reinforced decision making,” Comput. Vis. Image Und. , vol.

171, pp. 10–19, 2018.

[185] Y. Wu, J. Lim, and M. H. Yang, “Online object tracking: A

benchmark,” in Proc. IEEE CVPR , 2013, pp. 2411–2418.

[186] Y. Wu, J. Lim, and M. Yang, “Object tracking benchmark,” IEEE
Trans. Pattern Anal. Mach. Intell., vol. 37, no. 9, pp. 1834–1848,
2015.
[187] P. Liang, E. Blasch, and H. Ling, “Encoding color information for
visual tracking: Algorithms and benchmark,” IEEE Trans. Image
Process., vol. 24, no. 12, pp. 5630–5644, 2015.
[188] M. Mueller, N. Smith, and B. Ghanem, “A benchmark and simulator for UAV tracking,” in Proc. ECCV, 2016, pp. 445–461.
[189] A. Li, M. Lin, Y. Wu, M. H. Yang, and S. Yan, “NUS-PRO: A new
visual tracking challenge,” IEEE Trans. Pattern Anal. Mach. Intell.,
vol. 38, no. 2, pp. 335–349, 2016.
[190] H. K. Galoogahi, A. Fagg, C. Huang, D. Ramanan, and S. Lucey,
“Need for speed: A benchmark for higher frame rate object
tracking,” in Proc. IEEE ICCV, 2017, pp. 1134–1143.
[191] S. Li and D. Y. Yeung, “Visual object tracking for unmanned aerial
vehicles: A benchmark and new motion models,” in Proc. AAAI,
2017, pp. 4140–4146.
[192] M. M¨uller, A. Bibi, S. Giancola, S. Alsubaihi, and B. Ghanem,
“TrackingNet: A large-scale dataset and benchmark for object
tracking in the wild,” in Proc. ECCV, 2018, pp. 310–327.
[193] J. Valmadre, L. Bertinetto, J. F. Henriques, R. Tao, A. Vedaldi,
A. W. Smeulders, P. H. Torr, and E. Gavves, “Long-term tracking
in the wild: A benchmark,” in Proc. ECCV, vol. 11207 LNCS, 2018,
pp. 692–707.
[194] A. Li, Z. Chen, and Y. Wang, “BUAA-PRO: A tracking dataset
with pixel-level annotation,” in Proc. BMVC, 2018. [Online].
Available: http://bmvc2018.org/contents/papers/0851.pdf
[195] L. Huang, X. Zhao, and K. Huang, “GOT-10k: A large highdiversity benchmark for generic object tracking in the wild,”
2018. [Online]. Available: http://arxiv.org/abs/1810.11981
[196] H. Fan, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, H. Bai,
Y. Xu, C. Liao, and H. Ling, “LaSOT: A high-quality benchmark
for large-scale single object tracking,” 2018. [Online]. Available:
http://arxiv.org/abs/1809.07845
[197] L. ˇCehovin, “TraX: The visual tracking exchange protocol and
library,” Neurocomputing, vol. 260, pp. 5–8, 2017.
[198] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu, and
A. C. Berg, “SSD: Single shot multibox detector,” in Proc. ECCV,
2016, pp. 21–37.
[199] G. Koch, R. Zemel, and R. Salakhutdinov, “Siamese neural
networks for one-shot image recognition,” in Proc. ICML Deep
Learning Workshop, 2015.
[200] G. Lin, A. Milan, C. Shen, and I. Reid, “RefineNet: Multi-path
refinement networks for high-resolution semantic segmentation,”
in Proc. IEEE CVPR, 2017, pp. 5168–5177.
[201] T. Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proc.
IEEE CVPR, 2017, pp. 936–944.
[202] S. Gladh, M. Danelljan, F. S. Khan, and M. Felsberg, “Deep
motion features for visual tracking,” in Proc. ICPR, 2016, pp.
1243–1248.
[203] E. Real, J. Shlens, S. Mazzocchi, X. Pan, and V. Vanhoucke,
“YouTube-BoundingBoxes: A large high-precision humanannotated data set for object detection in video,” in Proc. IEEE
CVPR, 2017, pp. 7464–7473.
[204] G. A. Miller, “WordNet: A lexical database for English,” Communications of the ACM, vol. 38, no. 11, pp. 39–41, 1995.
[205] A. Vedaldi and K. Lenc, “MatConvNet: Convolutional neural
networks for MATLAB,” in Proc. ACM Multimedia Conference,
2015, pp. 689–692.
[206] M. Kristan, J. Matas, A. Leonardis, T. Vojir, R. Pflugfelder,
G. Fernandez, G. Nebehay, F. Porikli, and L. Cehovin, “A novel
performance evaluation methodology for single-target trackers,”
IEEE Trans. Pattern Anal. Mach. Intell., vol. 38, no. 11, pp. 2137–
2155, 2016.
[207] L. Cehovin, M. Kristan, and A. Leonardis, “Is my new tracker
really better than yours?” in Proc. IEEE WACV, 2014, pp. 540–
547.