视觉追踪方法可以大致分为计算机视觉深度学习革命前和革命后两大类。第一类的视觉追踪调查论文主要回顾了基于经典物体和运动表征的传统方法,然后系统地、实验地或两者兼之地考察它们的优缺点。考虑到深度学习视觉追踪器的重大进展,关于这些方法的回顾显然已经过时。相反地,第二类的综述则为深度视觉追踪器。
与以往调查的差异:尽管目前已有综述论文,但本文仅着重于发表在主要图像处理和计算机视觉会议和期刊上的129种最先进的基于深度学习的视觉跟踪方法。这些方法包括:HCFT [59], DeepSRDCF [60], FCNT [61], CNNSVM [62], DPST [63], CCOT [64], GOTURN [65], SiamFC [66], SINT [67], MDNet [68], HDT [69], STCT [70], RPNT [71], DeepTrack [72], CNT [73], CF-CNN [74], TCNN [75], RDLT [76], PTAV [77], [78], CREST [79], UCT/UCTLite [80], DSiam/DSiamM [81], TSN [82], WECO [83], RFL [84], IBCCF [85], DTO [86]], SRT [87], R-FCSN [88], GNET [89], LST [90], VRCPF [91], DCPF [92], CFNet [93], ECO [94], DeepCSRDCF [95], MCPF [96], BranchOut [97], DeepLMCF [98], Obli-RaFT [99], ACFN [100], SANet [101], DCFNet/DCFNet2 [102], DET [103], DRN [104], DNT [105], STSGS [106], TripletLoss [107], DSLT [108], UPDT [109], ACT [110], DaSiamRPN [111], RT-MDNet [112], StructSiam [113], MMLT [114], CPT [115], STP [116], Siam-MCF [117], Siam-BM [118], WAEF [119], TRACA [120], VITAL [121], DeepSTRCF [122], SiamRPN [123], SA-Siam [124], FlowTrack [125], DRT [126], LSART [127], RASNet [128], MCCT [129], DCPF2 [130], VDSR-SRT [131], FCSFN [132], FRPN2TSiam [133], FMFT [134], IMLCF [135], TGGAN [136], DAT [137], DCTN [138], FPRNet [139], HCFTs [140], adaDDCF [141], YCNN [142], DeepHPFT [143], CFCF [144], CFSRL [145], P2T [146], DCDCF [147], FICFNet [148], LCTdeep [149], HSTC [150], DeepFWDCF [151], CF-FCSiam [152], MGNet [153], ORHF [154], ASRCF [155], ATOM [156], CRPN [157], GCT [158], RPCF [159], SPM [160], SiamDW [56], SiamMask [57], SiamRPN++ [55], TADT [161], UDT [162], DiMP [163], ADT [164], CODA [165], DRRL [166], SMART [167], MRCNN [168], MM [169], MTHCF [170], AEPCF [171], IMM-DFT [172], TAAT [173], DeepTACF [174], MAM [175], ADNet [176], [177], C2FT [178], DRL-IS [179], DRLT [180], EAST [181], HP [182], P-Track [183], RDT [184], and SINT++ [58]。
这些追踪器包括了73个 CNN-based, 35个 SNN-based, 15个 custom-based (包括基于基于AE的,强化学习,组合网络),三个RNN-based和三个GAN-based 方法。本文的一个主要贡献和新颖之处在于包含和比较了目前视觉跟踪学界非常感兴趣的基于snn的视觉跟踪方法。此外,本文还对近年来基于GAN和自定义网络(包括基于RL的方法)的可视化跟踪器进行了综述。虽然这篇综述的方法归类为利用现成的深度特征和深度特征进行视觉跟踪(类似于【53】中的FEN和EEN),但同时也介绍了这些方法的详细特性,如预训练或主干网络、利用的层、训练数据集、目标函数、跟踪速度、使用的特征、跟踪输出类型、CPU/GPU实现、编程语言、深度学习框架。从网络训练的角度,本文独立调查现成的深度特征和用于视觉目标追踪的深度特征。由于深度现成特征(即从FEN中提取)大多在ImageNet上为目标识别任务预先训练,因此将独立审查其训练细节。因此,用于视觉目标追踪目的的网络训练被归类为仅利用离线训练,仅利用在线训练或同时利用离线和在线训练过程的基于深度学习的方法。最后,本文在四个视觉跟踪数据集上对45种最先进的视觉跟踪方法进行了综合分析。
基于深度学习的最新视觉目标追踪方法根据其结构(例如,CNN,SNN,RNN,GAN或自定义网络),网络利用(即用于视觉跟踪的现成深度特征和深度特征)、用于视觉跟踪的网络训练(即仅离线训练、仅在线训练、离线和在线训练)、网络目标(即基于回归、基于分类、以及基于分类和回归两种方法),以及利用相关滤波器的优点(即DCF框架和利用相关滤波器/层/函数)。这种在视觉跟踪方法的详细分类中涵盖所有这些方面的研究以前没有提出。
总结了基于深度学习的方法在解决视觉跟踪问题方面的主要动机和贡献。就我们所知,这是第一篇研究视觉跟踪方法的主要问题和解决方案的论文。这种分类为设计精确和稳健的基于深度学习的视觉跟踪方法提供了适当的见解。
基于基本特征(包括视频数量、帧数、类/簇数、序列属性、无标签、与其他数据集重叠等),对近期的可视化跟踪基准数据集包括OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]进行比较。
最后,对知名的OTB2013、OTB2015、VOT2018和LaSOT视觉跟踪数据集进行了广泛的定量和定性实验评价,并从不同方面分析了最先进的视觉跟踪器。此外,本文不仅针对VOT2018数据集,而且首次针对OTB2015和LaSOT数据集规定了最具挑战性的视觉属性。最后,对VOT工具包【45】进行了修改,以根据TraX协议【197】对不同方法进行定性比较。