目标跟踪经典算法汇总(持续更新...)

最新推荐文章于 2025-03-22 00:26:37 发布

山水之间2018

最新推荐文章于 2025-03-22 00:26:37 发布

阅读量5w

点赞数 55

分类专栏：目标检测/跟踪文章标签：目标跟踪算法

本文链接：https://blog.csdn.net/Gavinmiaoc/article/details/81178759

版权

目标检测/跟踪专栏收录该内容

19 篇文章

订阅专栏

本文概述了视觉目标跟踪的基本流程与框架，探讨了跟踪面临的主要挑战，并深入分析了稀疏表示、相关滤波、深度学习等主流跟踪方法。通过VOT2018竞赛结果的比较，展示了DCF类方法与SiamNet类方法的性能特点。总结了2018年顶会上关于目标跟踪的重要突破，包括SiamRPN等算法的性能和局限性。文章还回顾了2019年在单目标跟踪领域的最新研究成果，如SiamFC、SiamRPN++等，强调了深度学习与相关滤波在跟踪领域的相互融合与创新。最后，文章对跟踪数据集进行了综述，指出了未来跟踪技术的发展趋势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如题，虽然这个问题是经典目标跟踪算法，但事实上，可能我们并不需要那些曾经辉煌但已被拍在沙滩上的tracker(目标跟踪算法)，而是那些即将成为经典的，或者就目前来说最好用、速度和性能都看的过去tracker。我比较关注目标跟踪中的相关滤波方向，接下来我介绍下我所认识的目标跟踪，尤其是相关滤波类方法

benchmark: https://github.com/foolwood/benchmark_results

知乎：https://www.zhihu.com/question/26493945/answer/156025576

背景介绍

作者：YaqiLYU
链接：https://www.zhihu.com/question/26493945/answer/156025576
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

经典判别类方法推荐Struck和TLD，都能实时性能还行，Struck是2012年之前最好的方法，TLD是经典long-term的代表，思想非常值得借鉴：

Hare S, Golodetz S, Saffari A, et al. Struck: Structured output tracking with kernels [J]. IEEE TPAMI, 2016.
Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J]. IEEE TPAMI, 2012.

长江后浪推前浪，前面的已被排在沙滩上，这个后浪就是相关滤波和深度学习。相关滤波类方法correlation filter简称CF，也叫做discriminative correlation filter简称DCF，注意和后面的DCF算法区别，包括前面提到的那几个，也是后面要着重介绍的。深度学习（Deep ConvNet based）类方法，因为深度学习类目前不适合落地就不瞎推荐了，可以参考Winsty的几篇 Naiyan Wang - Home，还有VOT2015的冠军MDNet Learning Multi-Domain Convolutional Neural Networks for Visual Tracking，以及VOT2016的冠军TCNN http://www.votchallenge.net/vot2016/download/44_TCNN.zip，速度方面比较突出的如80FPS的SiamFC SiameseFC tracker和100FPS的GOTURN davheld/GOTURN，注意都是在GPU上。基于ResNet的SiamFC-R(ResNet)在VOT2016表现不错，很看好后续发展，有兴趣也可以去VALSE听作者自己讲解 VALSE-20160930-LucaBertinetto-Oxford-JackValmadre-Oxford-pu，至于GOTURN，效果比较差，但优势是跑的很快100FPS，如果以后效果也能上来就好了。做科研的同学深度学习类是关键，能兼顾速度就更好了。

最后强力推荐两个资源：

王强@Qiang Wang维护的benchmark_results foolwood/benchmark_results：大量顶级方法在OTB库上的性能对比，各种论文代码应有尽有，大神自己C++实现并开源的CSK, KCF和DAT，还有他自己的DCFNet论文加源码，找不着路的同学请跟紧。

@H Hakase维护的相关滤波类资源 HakaseH/CF_benchmark_results ，详细分类和论文代码资源，走过路过别错过，相关滤波类算法非常全面，非常之用心！

Benchmark Results

The trackers are ordered by the average overlap scores.

AUC and Precision are the standard metrics.
Deep Learning: deep learning features, deep learning method and RL.
RealTime: Speeds from the original paper, not test on the same platform. (just focus magnitude)

Tracker	AUC-CVPR2013	Precision-CVPR2013	AUC-OTB100	Precision-OTB100	AUC-OTB50	Precision-OTB50	Deep Learning	RealTime
ECO	0.709	0.93	0.694	0.910	0.643	0.874	Y	N(6)
MDNet	0.708	0.948	0.678	0.909	0.645	0.890	Y	N(1)
SANet	0.686	0.95	0.692	0.928	-	-	Y	N(1)
BranchOut			0.678	0.917			Y	N(1)
TCNN	0.682	0.937	0.654	0.884	-	-	Y	N(1)
TSN			0.644	0.868	0.58	0.809	Y	N(1)
CRT	-	-	0.642	0.875	0.594	0.835	Y	N(1.3)
BACF	0.678		0.63				N	Y(35)
MCPF	0.677	0.916	0.628	0.873			Y	N(0.5)
CREST	0.673	0.908	0.623	0.837	-	-	Y	N(1)
C-COT	0.672	0.899	0.682	-	-	-	Y	N(0.3)
DNT	0.664	0.907	0.627	0.851	-	-	Y	N(5)
PTAV	0.663	0.894	0.635	0.849			Y	Y(25)
ADNet	0.659	0.903	0.646	0.88			Y	N(3)
DSiamM	0.656	0.891					Y	Y(25)
SINT+	0.655	0.882	-	-	-	-	Y	N(4)
DRT	0.655	0.892	-	-	-	-	Y	N(0.8)
RDT	0.654	-	0.603	-	-	-	Y	Y(43)
SRDCFdecon	0.653	0.87	0.627	0.825	0.56	0.764	N	N(1)
DeepLMCF	0.643	0.892					Y	N(8)
MUSTer	0.641	0.865	0.575	0.774	-	-	N	N(4)
DeepSRDCF	0.641	0.849	0.635	0.851	0.56	0.772	Y	N(<1)
EAST	0.638						Y	Y(23/159)
SINT	0.635	0.851	-	-	-	-	Y	N(4)
LCT	0.628	0.848	0.562	0.762	0.492	0.691	N	Y(27)
SRDCF	0.626	0.838	0.598	0.789	0.539	0.732	N	N(5)
LMCF	0.624	0.839	0.568				N	Y(85)
SCF	0.623	0.874	-	-	-	-	N	Y(35)
Staple_CA	0.621	0.833	0.598	0.81			N	Y(35)
RaF	0.615	0.919					Y	N(2)
SiamFC	0.612	0.815	-	-	-	-	Y	Y(58)
RFL			0.581				Y	Y(15)
CFNet_conv2	0.611	0.807	0.568	0.748	0.53	0.702	Y	Y(75)
SiamFC_{3s}	0.608	0.809	-	-	-	-	Y	Y(86)
ACFN	0.607	0.86	0.575	0.802			Y	Y(15)
CF2	0.605	0.891	0.562	0.837	0.513	0.803	Y	N(11)
HDT	0.603	0.889	0.654	0.848	0.515	0.804	Y	N(10)
Staple	0.6	0.793	0.578	0.784	-	-	N	Y(80)
CSR-DCF	0.599	0.8	0.598	0.733			N	Y(13)
FCNT	0.599	0.856	-	-	-	-	Y	N(1)
CNN-SVM	0.597	0.852	0.554	0.814	0.512	0.769	Y	N
SCT	0.595	0.845	-	-	-	-	Y	Y(40)
SO-DLT	0.595	0.81	-	-	-	-	Y	N
BIT	0.593	0.817	-	-	-	-	N	Y(45)
DLSSVM	0.589	0.829	0.541	0.767	-	-	Y	N(10)
SAMF	0.579	0.785	0.535	0.743	-	-	N	N(7)
RPT	0.577	0.805	-	-	-	-	N	N(4)
MEEM	0.566	0.83	0.53	0.781	0.473	0.712	N	N(10)
DSST	0.554	0.737	0.52	0.693	0.463	0.625	N	Y(24)
CNT	0.545	0.723	-	-	-	-	Y	N(1.5)
TGPR	0.529	0.766	0.458	0.643	-	-	N	N(1)
KCF	0.514	0.74	0.477	0.693	0.403	0.611	N	Y(172)
GOTURN	0.444	0.62	0.427	0.572	-	-	Y	Y(16

目标跟踪简介

视觉目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控，人机交互，无人驾驶等。过去二三十年视觉目标跟踪技术取得了长足的进步，特别是最近两年利用深度学习的目标跟踪方法取得了令人满意的效果，使目标跟踪技术获得了突破性的进展。本文旨在简要介绍：目标跟踪的基本流程与框架，目标跟踪存在的挑战，目标跟踪相关方法，以及目标跟踪最新的进展等，希望通过这篇文章能让读者对视觉目标跟踪领域有一个较为全面的认识。

1.视觉目标跟踪基本流程与框架

视觉目标（单目标）跟踪任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。这一基本任务流程可以按如下的框架划分：

输入初始化目标框，在下一帧中产生众多候选框（Motion Model），提取这些候选框的特征（Feature Extractor），然后对这些候选框评分（Observation Model），最后在这些评分中找一个得分最高的候选框作为预测的目标（Prediction A），或者对多个预测值进行融合（Ensemble）得到更优的预测目标。

根据如上的框架，我们可以把目标跟踪划分为5项主要的研究内容. （1）运动模型：如何产生众多的候选样本。（2）特征提取：利用何种特征表示目标。（3）观测模型：如何为众多候选样本进行评分。（4）模型更新：如何更新观测模型使其适应目标的变化。（5）集成方法：如何融合多个决策获得一个更优的决策结果。下面分别简要介绍这5项研究内容。

运动模型（Motion Model）：生成候选样本的速度与质量直接决定了跟踪系统表现的优劣。常用的有两种方法：粒子滤波（Particle Filter）和滑动窗口（Sliding Window）。粒子滤波是一种序贯贝叶斯推断方法，通过递归的方式推断目标的隐含状态。而滑动窗口是一种穷举搜索方法，它列出目标附近的所有可能的样本作为候选样本。

特征提取（Feature Extractor）: 鉴别性的特征表示是目标跟踪的关键之一。常用的特征被分为两种类型：手工设计的特征（Hand-crafted feature）和深度特征（Deep feature）。常用的手工设计的特征有灰度特征（Gray），方向梯度直方图（HOG），哈尔特征（Haar-like），尺度不变特征（SIFT）等。与人为设计的特征不同，深度特征是通过大量的训练样本学习出来的特征，它比手工设计的特征更具有鉴别性。因此，利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果。

观测模型（Observation Model）:大多数的跟踪方法主要集中在这一块的设计上。根据不同的思路，观测模型可分为两类：生成式模型（Generative Model）和判别式模型（Discriminative Model）. 生成式模型通常寻找与目标模板最相似的候选作为跟踪结果，这一过程可以视为模板匹配。常用的理论方法包括：子空间，稀疏表示，字典学习等。而判别式模型通过训练一个分类器去区分目标与背景，选择置信度最高的候选样本作为预测结果。判别式方法已经成为目标跟踪中的主流方法，因为有大量的机器学习方法可以利用。常用的理论方法包括：逻辑回归，岭回归，支持向量机，多示例学习，相关滤波等。

模型更新（Model Update）: 模型更新主要是更新观测模型，以适应目标表观的变化，防止跟踪过程发生漂移。模型更新没有一个统一的标准，通常认为目标的表观连续变化，所以常常会每一帧都更新一次模型。但也有人认为目标过去的表观对跟踪很重要，连续更新可能会丢失过去的表观信息，引入过多的噪音，因此利用长短期更新相结合的方式来解决这一问题。

集成方法（Ensemble Method）: 集成方法有利于提高模型的预测精度，也常常被视为一种提高跟踪准确率的有效手段。可以把集成方法笼统的划分为两类：在多个预测结果中选一个最好的，或是利用所有的预测加权平均。

2.视觉目标跟踪面临的挑战

视觉运动目标跟踪是一个极具挑战性的任务，因为对于运动目标而言，其运动的场景非常复杂并且经常发生变化，或是目标本身也会不断变化。那么如何在复杂场景中识别并跟踪不断变化的目标就成为一个挑战性的任务。如下图我们列出了目标跟踪中几个主要的挑战因素：

其中遮挡（Occlusion）是目标跟踪中最常见的挑战因素之一，遮挡又分为部分遮挡（Partial Occlusion）和完全遮挡（Full Occlusion）。解决部分遮挡通常有两种思路：（1）利用检测机制判断目标是否被遮挡，从而决定是否更新模板，保证模板对遮挡的鲁棒性。（2）把目标分成多个块，利用没有被遮挡的块进行有效的跟踪。对于目标被完全遮挡的情况，当前也并没有有效的方法能够完全解决。

形变（Deformation）也是目标跟踪中的一大难题，目标表观的不断变化，通常导致跟踪发生漂移（Drift）。解决漂移问题常用的方法是更新目标的表观模型，使其适应表观的变化，那么模型更新方法则成为了关键。什么时候更新，更新的频率多大是模型更新需要关注的问题。

背景杂斑（Background Clutter）指得是要跟踪的目标周围有非常相似的目标对跟踪造成了干扰。解决这类问题常用的手段是利用目标的运动信息，预测运动的大致轨迹，防止跟踪器跟踪到相似的其他目标上，或是利用目标周围的大量样本框对分类器进行更新训练，提高分类器对背景与目标的辨别能力。

尺度变换（Scale Variation）是目标在运动过程中的由远及近或由近及远而产生的尺度大小变化的现象。预测目标框的大小也是目标跟踪中的一项挑战，如何又快又准确的预测出目标的尺度变化系数直接影响了跟踪的准确率。通常的做法有：在运动模型产生候选样本的时候，生成大量尺度大小不一的候选框，或是在多个不同尺度目标上进行目标跟踪，产生多个预测结果，选择其中最优的作为最后的预测目标。

当然，除了上述几个常见的挑战外，还有一些其他的挑战性因素：光照（illumination）,低分辨率（Low Resolution）,运动模糊（Motion Blur）,快速运动（Fast Motion），超出视野（Out of View），旋转（Rotation）等。所有的这些挑战因数共同决定了目标跟踪是一项极为复杂的任务。更多信息请参考http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html。

3.视觉目标跟踪方法

视觉目标跟踪方法根据观测模型是生成式模型或判别式模型可以被分为生成式方法（Generative Method）和判别式方法（Discriminative Method）。前几年最火的生成式跟踪方法大概是稀疏编码（Sparse Coding）了, 而近来判别式跟踪方法逐渐占据了主流地位，以相关滤波（Correlation Filter）和深度学习（Deep Learning）为代表的判别式方法也取得了令人满意的效果。下面我们分别简要概括这几种方法的大体思想和其中的一些具体的跟踪方法。

稀疏表示(Sparse Representation)：给定一组过完备字典，将输入信号用这组过完备字典线性表示，对线性表示的系数做一个稀疏性的约束（即使得系数向量的分量尽可能多的为0），那么这一过程就称为稀疏表示。基于稀疏表示的目标跟踪方法则将跟踪问题转化为稀疏逼近问题来求解。如稀疏跟踪的开山之作L1Tracker, 认为候选样本可以被稀疏的表示通过目标模板和琐碎模板，而一个好的候选样本应该拥有更稀疏的系数向量。稀疏性可通过解决一个L1正则化的最小二乘优化问题获得，最后将与目标模板拥有最小重构误差的候选样本作为跟踪结果。L1Tracker中利用琐碎模板处理遮挡，利用对稀疏系数的非负约束解决背景杂斑问题。随后在L1Tracker基础上的改进则有很多，比较有代表性的有ALSA，L1APG等。

相关滤波(Correlation Filter)：相关滤波源于信号处理领域，相关性用于表示两个信号之间的相似程度，通常用卷积表示相关操作。那么基于相关滤波的跟踪方法的基本思想就是，寻找一个滤波模板，让下一帧的图像与我们的滤波模板做卷积操作，响应最大的区域则是预测的目标。根据这一思想先后提出了大量的基于相关滤波的方法，如最早的平方误差最小输出和（MOSSE）利用的就是最朴素的相关滤波思想的跟踪方法。随后基于MOSSE有了很多相关的改进，如引入核方法（Kernel Method）的CSK，KCF等都取得了很好的效果，特别是利用循环矩阵计算的KCF，跟踪速度惊人。在KCF的基础上又发展了一系列的方法用于处理各种挑战。如：DSST可以处理尺度变化，基于分块的（Reliable Patches）相关滤波方法可处理遮挡等。但是所有上述的基于相关滤波的方法都受到边界效应（Boundary Effect）的影响。为了克服这个问题SRDCF应运而生，SRDCF利用空间正则化惩罚了相关滤波系数获得了可与深度学习跟踪方法相比的结果。

深度学习（CNN-Based）：因为深度特征对目标拥有强大的表示能力，深度学习在计算机视觉的其他领域，如：检测，人脸识别中已经展现出巨大的潜力。但早前两年，深度学习在目标跟踪领域的应用并不顺利，因为目标跟踪任务的特殊性，只有初始帧的图片数据可以利用，因此缺乏大量的数据供神经网络学习。只到研究人员把在分类图像数据集上训练的卷积神经网络迁移到目标跟踪中来，基于深度学习的目标跟踪方法才得到充分的发展。如：CNN-SVM利用在ImageNet分类数据集上训练的卷积神经网络提取目标的特征，再利用传统的SVM方法做跟踪。与CNN-SVM提取最后一层的深度特征不同的是，FCN利用了目标的两个卷积层的特征构造了可以选择特征图的网络，这种方法比只利用最后的全连接层的CNN-SVM效果有些许的提升。随后HCF, HDT等方法则更加充分的利用了卷积神经网络各层的卷积特征，这些方法在相关滤波的基础上结合多层次卷积特征进一步的提升了跟踪效果。然而，跟踪任务与分类任务始终是不同的，分类任务关心的是区分类间差异，忽视类内的区别。目标跟踪任务关心的则是区分特定目标与背景，抑制同类目标。两个任务有着本质的区别，因此在分类数据集上预训练的网络可能并不完全适用于目标跟踪任务。于是，Nam设计了一个专门在跟踪视频序列上训练的多域（Multi-Domain）卷积神经网络（MDNet），结果取得了VOT2015比赛的第一名。但是MDNet在标准集上进行训练多少有一点过拟合的嫌疑，于是VOT2016比赛中禁止在标准跟踪数据集上进行训练。2016年SRDCF的作者继续发力，也利用了卷积神经网络提取目标特征然后结合相关滤波提出了C-COT的跟踪方法取得了VOT2016的冠军。

4.视觉目标跟踪最新进展

目标跟踪最近几年发展迅速，以基于相关滤波（Correlation Filter）和卷积神经网络（CNN）的跟踪方法已经占据了目标跟踪的大半江山。如下图给出的2014-2017年以来表现排名靠前的一些跟踪方法。

可以看到前三名的方法不是基于相关滤波的方法就是基于卷积神经网络的方法,或是两者结合的方法。比如ECCV2016的C-COT就是在相关滤波的基础上结合卷积神经网络的杰作。下图给出这些方法在标准跟踪数据集OTB2013上的跟踪结果：

可以看到基于卷积神经网络的方法取得了惊人的突破。预计未来两年相关滤波和卷积神经网络将仍然会是目标跟踪领域的主角。

卷积特征

最后这部分是Martin Danelljan的专场，主要介绍他的一些列工作，尤其是结合深度特征的相关滤波方法，代码都在他主页Visual Tracking，就不一一贴出了。

Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking [C]// CVPR, 2014.

在CN中提出了非常重要的多通道颜色特征Color Names，用于CSK框架取得非常好得效果，还提出了加速算法CN2，通过类PCA的自适应降维方法，对特征通道数量降维(10 -> 2)，平滑项增加跨越不同特征子空间时的代价，也就是PCA中的协方差矩阵线性更新防止降维矩阵变化太大。

Danelljan M, Hager G, Khan F S, et al. Discriminative Scale Space Tracking [J]. IEEE TPAMI, 2017.

DSST是VOT2014的第一名，开创了平移滤波+尺度滤波的方式。在fDSST中对DSST进行加速，PCA方法将平移滤波HOG特征的通道降维(31 -> 18)，QR方法将尺度滤波器~1000*17的特征降维到17*17，最后用三角插值(频域插值)将尺度数量从17插值到33以获得更精确的尺度定位。

SRDCF是VOT2015的第四名，为了减轻边界效应扩大检测区域，优化目标增加了空间约束项，用高斯-塞德尔方法迭代优化，并用牛顿法迭代优化平移检测的子网格精确目标定位。

Danelljan M, Hager G, Shahbaz Khan F, et al. Adaptive decontamination of the training set: A unified formulation for discriminative visual tracking [C]// CVPR, 2016.

SRDCFdecon在SRDCF的基础上，改进了样本和学习率问题。以前的相关滤波都是固定学习率线性加权更新模型，虽然这样比较简单不用保存以前样本，但在定位不准确、遮挡、背景扰动等情况会污染模型导致漂移。SRDCFdecon选择保存以往样本(图像块包括正，负样本)，在优化目标函数中添加样本权重参数和正则项，采用交替凸搜索，首先固定样本权重，高斯-塞德尔方法迭代优化模型参数，然后固定模型参数，凸二次规划方法优化样本权重。

Danelljan M, Hager G, Shahbaz Khan F, et al. Convolutional features for correlation filter based visual tracking [C]// ICCVW, 2015.

DeepSRDCF是VOT2015的第二名，将SRDCF中的HOG特征替换为CNN中单层卷积层的深度特征(也就是卷积网络的激活值)，效果有了极大提升。这里用imagenet-vgg-2048 network，VGG网络的迁移能力比较强，而且MatConvNet就是VGG组的，MATLAB调用非常方便。论文还测试了不同卷积层在目标跟踪任务中的表现：

第1层表现最好，第2和第5次之。由于卷积层数越高语义信息越多，但纹理细节越少，从1到4层越来越差的原因之一就是特征图的分辨率越来越低，但第5层反而很高，是因为包括完整的语义信息，判别力比较强(本来就是用来做识别的)。

注意区分这里的深度特征和基于深度学习的方法，深度特征来自ImageNet上预训练的图像分类网络，没有fine-turn这一过程，不存在过拟合的问题。而基于深度学习的方法大多需要在跟踪序列上end-to-end训练或fine-turn，如果样本数量和多样性有限就很可能过拟合。

Ma C, Huang J B, Yang X, et al. Hierarchical convolutional features for visual tracking [C]// ICCV, 2015.

值得一提的还有Chao Ma的HCF，结合多层卷积特征提升效果，用了VGG19的Conv5-4, Conv4-4和Conv3-4的激活值作为特征，所有特征都缩放到图像块分辨率，虽然按照论文应该是由粗到细确定目标，但代码中比较直接，三种卷积层的响应以固定权值1, 0.5, 0.02线性加权作为最终响应。虽然用了多层卷积特征，但没有关注边界效应而且线性加权的方式过于简单，HCF在VOT2016仅排在28名（单层卷积深度特征的DeepSRDCF是第13名）。

Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking [C]// ECCV, 2016.

C-COT是VOT2016的第一名，综合了SRDCF的空域正则化和SRDCFdecon的自适应样本权重，还将DeepSRDCF的单层卷积的深度特征扩展为多成卷积的深度特征（VGG第1和5层），为了应对不同卷积层分辨率不同的问题，提出了连续空间域插值转换操作，在训练之前通过频域隐式插值将特征图插值到连续空域，方便集成多分辨率特征图，并且保持定位的高精度。目标函数通过共轭梯度下降方法迭代优化，比高斯-塞德尔方法要快，自适应样本权值直接采用先验权值，没有交替凸优化过程，检测中用牛顿法迭代优化目标位置。

注意以上SRDCF, SRDCFdecon，DeepSRDCF，C-COT都无法实时，这一系列工作虽然效果越来越好，但也越来越复杂，在相关滤波越来越慢失去速度优势的时候，Martin Danelljan在2017CVPR的ECO来了一脚急刹车，大神来告诉我们什么叫又好又快，不忘初心：

Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking [C]// CVPR, 2017.

ECO是C-COT的加速版，从模型大小、样本集大小和更新策略三个方便加速，速度比C-COT提升了20倍，加量还减价，EAO提升了13.3%，最最最厉害的是， hand-crafted features的ECO-HC有60FPS。。吹完了，来看看具体做法。

第一减少模型参数，定义了factorized convolution operator(分解卷积操作)，效果类似PCA，用PCA初始化，然后仅在第一帧优化这个降维矩阵，以后帧都直接用，简单来说就是有监督降维，深度特征时模型参数减少了80%。

第二减少样本数量， compact generative model(紧凑的样本集生成模型)，采用Gaussian Mixture Model (GMM)合并相似样本，建立更具代表性和多样性的样本集，需要保存和优化的样本集数量降到C-COT的1/8。

第三改变更新策略，sparser updating scheme(稀疏更新策略)，每隔5帧做一次优化更新模型参数，不但提高了算法速度，而且提高了对突变，遮挡等情况的稳定性。但样本集是每帧都更新的，稀疏更新并不会错过间隔期的样本变化信息。

ECO的成功当然还有很多细节，而且有些我也看的不是很懂，总之很厉害就是了。。ECO实验跑了四个库(VOT2016, UAV123, OTB-2015, and TempleColor)都是第一，而且没有过拟合的问题，仅性能来说ECO是目前最好的相关滤波算法，也有可能是最好的目标跟踪算法。hand-crafted features版本的ECO-HC，降维部分原来HOG+CN的42维特征降到13维，其他部分类似，实验结果ECO-HC超过了大部分深度学习方法，而且论文给出速度是CPU上60FPS。

最后是来自Luca Bertinetto的CFNet End-to-end representation learning for Correlation Filter based tracking，除了上面介绍的相关滤波结合深度特征，相关滤波也可以end-to-end方式在CNN中训练了：

Valmadre J, Bertinetto L, Henriques J F, et al. End-to-end representation learning for Correlation Filter based tracking [C]// CVPR, 2017.

在SiamFC的基础上，将相关滤波也作为CNN中的一层，最重要的是cf层的前向传播和反向传播公式推导，两层卷积层的CFNet在GPU上是75FPS，综合表现并没有很多惊艳，可能是难以处理CF层的边界效应吧，持观望态度。

2017年CVPR和ICCV结果

下面是CVPR 2017的目标跟踪算法结果：可能MD大神想说，一个能打的都没有！

仿照上面的表格，整理了ICCV 2017的相关论文结果对比ECO：哎，还是一个能打的都没有！

=================================分割线 ====2018============================================

VOT2018 paper: http://prints.vicos.si/publications/files/365

VOT2018 presentation: http://data.votchallenge.net/vot2018/presentations/vot2018_presentation.pdf

计算机视觉两大盛会CVPR 2018和ECCV 2018，与Visual Object Tracking领域一年一度最权威竞赛VOT2018 VOT2018 Challenge 随着ECCV落下帷幕，一起来看看今年单目标跟踪方向又有什么重大突破，寻找高含金量的好paper，发现速度性能双高的实用算法。

（看点：DCF是否依然是中流砥柱，未来之星SiamNet发展到了什么程度）

Short-term tracking challenge

短期跟踪竞赛依然是VOT2017的60个public dataset公开序列（公测）和60个sequestered dataset隐藏序列（内测），序列和评价指标完全相同。今年共有72个算法参赛，下面是前50名的公测结果（高亮标出了一些baseline）：

72个参赛算法中占比最高的是DCF(discriminative correlation filter)类和SiamNet(Siamese network)类，其中38个是DCF类方法占比51%，feature以来自VGGNet的深度特征为主；14个是SiamNet类占比18%，backbone以SiamFC中的AlexNet为主，今年SiamNet类占比大幅提高。

EAO：两个baseline，VOT2016和VOT2017的神话CCOT，和2017年最好算法ECO都只能排在20左右，已经被大幅超越，甚至前几名都与ECO拉开了0.1以上的差距。
R鲁棒性前四名：MFT, LADCF, RCO, UPDT，都是DCF类方法，CNN特征提取的backbone都是ResNet-50。
A准确性前两名：SiamRPN, SA-Siam-R, 都是SiamNet类方法，这两个算法都表现出准确性奇高，而鲁棒性前十最差的特点。

（准确性奇高而鲁棒性较差，这是算法设计的缺陷，还是SiamNet类别天生的劣势？）

VOT竞赛是各新算法的试金石，在前20名中我们也能看到2018年CVPR和ECCV的一些论文：

CVPR 2018：SiamRPN, DRT, STRCF, SA-Siam, LSART

ECCV 2018：DaSiamRPN, UPDT

以上就是性能比较突出的2018年顶会了，好文推荐！其中SiamRPN, SA-Siam, DaSiamRPN三篇是Siamese Net类方法，DRT, STRCF, UPDT三篇是DCF类方法。

总结

DCF依然领跑性能，short-term榜依旧以DCF+CNN为主，尤其UPDT贡献巨大，对前几名算法都有影响，但速度越来越慢看不到边，KCF不堪回首。

SiamNet速度快性能也不差，real-time榜和long-term榜都是SiamNet登顶，尤其SiamRPN潜力巨大，打通了目标跟踪和目标检测，性价比很高，接下来会快速发展壮大，希望速度优势能保得住。

=================================分===割===线======2019.11.22======================================

时隔一年，再次回来目标跟踪领域，不得不感叹，大神们发paper的速度实在是太快了，去年封王的算法今年看来也是被虐的渣都不剩，深感落后了啊，赶紧抓一把来看看最新的算法情况。

首先看SiamRPN系列文章

如下：

[0] SiamFC文章，对SINT（Siamese Instance Search for Tracking，in CVPR2016）改进，第一个提出用全卷积孪生网络结构来解决tracking问题的paper，可以视为只有一个anchor的SiamRPN

论文题目：Fully-convolutional siamese networks for object tracking

论文地址：https://arxiv.org/abs/1606.09549

项目地址：https://www.robots.ox.ac.uk/~luca/siamese-fc.html

tf实现：https://github.com/torrvision/siamfc-tf

pytorch实现：https://github.com/rafellerc/Pytorch-SiamFC

[0.1] 后面的v2版本即CFNet，用cf操作代替了correlation操作。

论文题目：End-To-End Representation Learning for Correlation Filter Based Tracking

论文地址：http://openaccess.thecvf.com/content_cvpr_2017/html/Valmadre_End-To-End_Representation_Learning_CVPR_2017_paper.html

项目地址：http://www.robots.ox.ac.uk/~luca/cfnet.html

MatConvNet实现：https://github.com/bertinetto/cfnet

SiamFC之后有诸多的改进工作，例如

[0.2] StructSiam，在跟踪中考虑Local structures

论文题目：Structured Siamese Network for Real-Time Visual Tracking

论文地址：http://openaccess.thecvf.com/content_ECCV_2018/papers/Yunhua_Zhang_Structured_Siamese_Network_ECCV_2018_paper.pdf

[0.3] SiamFC-tri，在Saimese跟踪网络中引入了Triplet Loss

论文题目：Triplet Loss in Siamese Network for Object Tracking

论文地址：http://openaccess.thecvf.com/content_ECCV_2018/papers/Xingping_Dong_Triplet_Loss_with_ECCV_2018_paper.pdf

[0.4] DSiam，动态Siamese网络

论文题目：Learning Dynamic Siamese Network for Visual Object Tracking

论文地址：http://openaccess.thecvf.com/content_ICCV_2017/papers/Guo_Learning_Dynamic_Siamese_ICCV_2017_paper.pdf

代码地址：https://github.com/tsingqguo/DSiam

[0.5] SA-Siam，Twofold Siamese网络

论文题目：A Twofold Siamese Network for Real-Time Object Tracking

论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/He_A_Twofold_Siamese_CVPR_2018_paper.pdf

[1] SiamRPN文章，将anchor应用在候选区域的每个位置，同时进行分类和回归，one-shot local detection。

论文题目：High Performance Visual Tracking with Siamese Region Proposal Network

论文地址：http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf

项目地址：http://bo-li.info/SiamRPN/

[2] DaSiamRPN, SiamRPN文章的follow-up，重点强调了训练过程中样本不均衡的问题，增加了正样本的种类和有语义的负样本。

论文题目：Distractor-aware Siamese Networks for Visual Object Tracking

论文地址：https://arxiv.org/abs/1808.06048

项目地址：http://bo-li.info/DaSiamRPN/

test code：https://github.com/foolwood/DaSiamRPN

[3] Cascaded SiamRPN，将若干RPN模块cascade起来，同时利用了不同layer的feature。

论文题目：Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

论文地址：https://arxiv.org/abs/1812.06148

[4] SiamMask，在SiamRPN的结构中增加了一个mask分支，同时进行tracking和video segmentation。

论文题目：Fast Online Object Tracking and Segmentation: A Unifying Approach

论文地址：https://arxiv.org/abs/1812.05050

项目地址：http://www.robots.ox.ac.uk/~qwang/SiamMask/

[5] SiamRPN++, SiamRPN文章的follow-up，让现代网络例如ResNet在tracking中work了，基本上所有数据集都是SOTA。

论文题目：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

论文地址：https://arxiv.org/abs/1812.11703

项目地址：http://bo-li.info/SiamRPN++/

[6] Deeper and Wider SiamRPN，将网络加深加宽来提升性能，重点关注感受野和padding的影响。

论文题目：Deeper and Wider Siamese Networks for Real-Time Visual Tracking

论文地址：https://arxiv.org/abs/1901.01660

test code：https://gitlab.com/MSRA_NLPR/deeper_wider_siamese_trackers

2019论文盘点

跟踪在计算机视觉里有很广泛的内涵，本文所指的跟踪为通用目标跟踪，不包括比如人脸特征点跟踪、视线跟踪等特定领域。

本文总结了 19 篇相关论文，列出了代码地址，并大致分类为单目标跟踪（最多）、多目标跟踪、跟踪与分割、3D目标跟踪、跟踪数据集几部分。

比较有意思的是，跟踪领域的人也开始关注分割了，ICCV上也有相关的workshop。这给算法带来新挑战。

可以在以下网站下载这些论文：

http://openaccess.thecvf.com/CVPR2019.py

单目标跟踪

一种无监督的方式对大规模无标记视频进行训练的。动机是一个健壮的跟踪器应该在视频前向和后向预测中都是有效的，在Siamese相关滤波网络上构建了算法框架，该网络使用未标记的原始视频进行训练，达到了有监督跟踪器的baseline精度。

Unsupervised Deep Tracking

Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, Houqiang Li

https://github.com/594422814/UDT/

为了实现多目标跟踪的无标签和端到端学习，提出了一种用动画来跟踪的框架，其中可微分神经模型首先跟踪输入帧中的对象，然后将这些对象动画化为重建帧。然后通过反向传播通过重建误差来驱动学习。

军事医学研究院、国防科技大学、伦敦大学学院、阿兰图灵研究所

Tracking by Animation: Unsupervised Learning of Multi-Object Attentive Trackers

Zhen He, Jian Li, Daxue Liu, Hangen He, David Barber

https://github.com/zhen-he/tracking-by-animation

通过特定视点的鉴别相关滤波的重建进行目标跟踪

Tampere University、University of Ljubljana

Object Tracking by Reconstruction With View-Specific Discriminative Correlation Filters

Ugur Kart, Alan Lukezic, Matej Kristan, Joni-Kristian Kamarainen, Jiri Matas

提出了一种新的学习目标感知特征的方法，该方法能够比预训练的深度特征更好地识别发生显著外观变化的目标。目标感知特征与Siamese匹配网络集成，用于视觉跟踪。大量的实验结果表明，该算法在精度和速度上均优于现有的算法。

哈工大、上海交大、腾讯AI实验室、加州大学默塞德分校、Google Cloud AI

Target-Aware Deep Tracking

Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang

https://github.com/XinLi-zn/TADT

https://github.com/ZikunZhou/TADT-python

SPM跟踪器：用于实时视觉对象跟踪的串并联匹配。提出了串并联匹配（Series-Parallel Matching）的结构。整个结构分为两个部分，称之为“粗匹配”与“细匹配”。

中国科技大学、微软亚洲研究院

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng

SiamRPN++：目前精度最高的单目标跟踪

商汤研究院、中科院自动化所、中科院计算所

SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks

Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

https://github.com/STVIR/pysot

对影响跟踪精度的主干网络因素进行了系统的研究，为Siamese跟踪框架提供了一个架构设计的指导；基于文章提出的无填充残差单元，设计了一种新的用于Siamese跟踪的更深、更宽的网络架构。实验结果显示新的架构对基准跟踪算法确实有很明显的性能提升效果。

中科院大学&中科院自动化所、微软研究院

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

Zhipeng Zhang, Houwen Peng

https://github.com/researchmm/SiamDW

一种在siamese网络下训练GCNS的视觉追踪方法，实现了存在遮挡、突然运动、背景杂波情景下的鲁棒视觉追踪

中科院、中科院大学、鹏城实验室、中国科技大学

Graph Convolutional Tracking

Junyu Gao, Tianzhu Zhang, Changsheng Xu

http://nlpr-web.ia.ac.cn/mmc/homepage/jygao/gct_cvpr2019.html#

通过预测target和estimated bounding box的overlap来实现目标估计。本文提出的ATOM跟踪模型在5个benchmark数据集上实现了state-of-the-art性能；在TrackingNet数据集上，相对于之前的最佳方法提升了15%，同时运行速度超过30 FPS。

CVL, Linko ̈ping University, Sweden、CVL, ETH Zu ̈rich, Switzerland、起源人工智能研究院

ATOM: Accurate Tracking by Overlap Maximization

Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg

https://github.com/visionml/pytracking （378颗星！）

基于自适应空间加权相关滤波的视觉跟踪

大连理工大学、鹏城实验室、腾讯优图

Visual Tracking via Adaptive Spatially-Regularized Correlation Filters

Kenan Dai, Dong Wang, Huchuan Lu, Chong Sun, Jianhua Li

https://github.com/Daikenan/ASRCF

基于兴趣区域的池化相关滤波方法的视觉跟踪

大连理工大学、腾讯优图、海军航空兵学院、鹏城实验室

ROI Pooled Correlation Filters for Visual Tracking

Yuxuan Sun, Chong Sun, Dong Wang, You He, Huchuan Lu

孪生级联候选区域网络，用于实时目标跟踪

美国天普大学

Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

Heng Fan, Haibin Ling

多目标跟踪

深度学习模型

近两年，深度学习算法开始在MOT领域发展，一般分为这么几类：

以Re-ID为主的表观特征提取网络，如《Aggregate Tracklet Appearance Features for Multi-Object Tracking》；
基于单目标跟踪领域中成熟的Siam类框架构建的多目标跟踪框架，如《Multi-object tracking with multiple cues and switcher-aware classification》；
联合目标检测框架和单目标跟踪框架的多任务框架，如《Detect to track and track to detect》；
端到端的数据关联类算法，如《DeepMOT: A Differentiable Framework for Training Multiple Object Trackers》；
联合运动、表观和数据观联的集成框架，如《FAMNet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking》；
基于LSTM类算法实现的运动估计、表观特征选择和融合等等算法。

MOTChallenge评价体系

由于MOTChallenge是最主流的MOT数据集，所以我这里就以它为例进行介绍。其包含有MOT15~17三个数据集，其中MOT15提供了3D的坐标信息，包含5500帧训练集和5783帧测试集，提供了基于ACF检测器的观测结果。而MOT16和MOT17则包含5316帧训练集和5919帧测试集，其中MOT16仅提供了基于DPM检测器的观测，而MOT17则提供了SDP、FasterRcnn、DPM三种检测结果。

MOT提供的目标检测结果标注格式为： frame_id 、 target_id、 bb_left 、bb_top、 bb_width、bb_height 、confidence 、x 、y 、z 。即视频帧序号、目标编号（由于暂时未定，所以均为-1）、目标框左上角坐标和宽高、检测置信度（不一定是0~1）、三维坐标（2D数据集中默认为-1）.

那么我们所需要提供的跟踪结果格式也是同上面一致的，不过需要我们填写对应的target_id和对应的目标框信息，而confidence,x,y,z均任意，保持默认即可。

相应地，官方所采用的跟踪groudtruth格式则为： frame_id、 target_id 、bb_left、bb_top、bb_width bb_height 、is_active、label_id、visibility_ratio 。其中is_active代表此目标是否考虑，label_id表示该目标所属类别，visibility_ratio表示目标的可视程度，目标类别分类如下：Pedestrian-1 Static Person-7 Person on vehicle-2 Distractor-8 Car-3 Occluder-9 Bicycle-4 Occluder on the ground-10 Motorbike-5 Occluder full-11 Non motorized vehicle-6 Reflection-12

最后，数据集还提供了各个视频的视频信息seqinfo.ini，主要包括视频名称、视频集路径、帧率fps、视频长度、图像宽高、图像格式等。

根据MOT官方工具箱中的评价工具，可分析如下的评价规则：

Step1 数据清洗

对于跟踪结果进行简单的格式转换，这个主要是方便计算，意义不大，其中根据官方提供的跟踪groundtruth，只保留is_active = 1的目标（根据观察，只考虑了类别为1，即处于运动状态的无遮挡的行人）。另外将groudtruth中完全没有跟踪结果的目标清除，并保持groudtruth中的视频帧序号与视频帧数一一对应。为了统一跟踪结果和groudtruth的目标ID，首先建立目标的映射表，即将跟踪结果中离散的目标ID按照从1开始的数字ID替代。

Step2 数据匹配

将跟踪结果和groundtruth中同属一帧的目标取出来，并计算两两之间的IOU，并将其转换为cost矩阵（可理解为距离矩阵，假定Thresh=0.5）。利用cost矩阵，通过匈牙利算法建立匹配矩阵，从而将跟踪结果中的目标和groundtruth中的目标一一对应起来。

Step3 数据分析

对视频每一帧进行分析，利用每一帧中的跟踪目标和groudtruth目标之间的匹配关系，可作出以下几个设定：

对于当前帧检测到但未匹配的目标轨迹记作falsepositive；
对于当前帧groudtruth中未匹配的目标轨迹记作missed；
对于groudtruth中的某一目标，如果与之匹配的跟踪目标ID前后不一致，则记作IDswitch；
对于已匹配的轨迹记作covered，总轨迹为gt。

其中，对于匹配和未匹配到的目标都有各自的评价依据，评价指标很多，这里就不细讲了，网上都有。

提出一种新的训练模式，用于改进多目标跟踪算法中目标交叠时身份切换问题

洛桑联邦理工学院（EPFL）

Eliminating Exposure Bias and Metric Mismatch in Multiple Object Tracking

Andrii Maksai, Pascal Fua

多目标跟踪与分割，提出问题、构建了数据集、建造了一个基线模型，并全部开源了

亚琛工业大学、MPI for Intelligent Systems and University of Tubingen

MOTS: Multi-Object Tracking and Segmentation

Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

http://www.vision.rwth-aachen.de/page/mots

Top 算法（2020.04.15更新）

Tracking Objects as Points | [pdf][code] | arXiv(2019) | CenterTrack

Refinements in Motion and Appearance for Online Multi-Object Tracking| [pdf][code] |arXiv(2019) | MIFT

Multiple Object Tracking by Flowing and Fusing |[pdf] |arXiv(2019) |FFT

A Unified Object Motion and Affinity Model for Online Multi-Object Tracking |[pdf][code]|CVPR2020 |UMA

Towards Real-Time Multi-Object Tracking | [pdf][code] | arXiv(2019) | JDE(private)

A Simple Baseline for Multi-Object Tracking | 【pdf】| [code] arXiv(2020) | FairMOT(public&private)

跟踪与分割

SiamMask，在视频跟踪任务上达到最优性能，并且在视频目标分割上取得了当前最快的速度。

Fast Online Object Tracking and Segmentation: A Unifying Approach

Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr

https://github.com/foolwood/SiamMask

多目标跟踪与分割，提出问题、构建了数据集、建造了一个基线模型，并全部开源了

亚琛工业大学、MPI for Intelligent Systems and University of Tubingen

MOTS: Multi-Object Tracking and Segmentation

Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

http://www.vision.rwth-aachen.de/page/mots

3D目标跟踪

形状补全用于LIDAR点云Siamese网络三维目标跟踪

沙特阿卜杜拉国王科技大学

Leveraging Shape Completion for 3D Siamese Tracking

Silvio Giancola, Jesus Zarzar, Bernard Ghanem

https://github.com/SilvioGiancola/ShapeCompletion3DTracking

跟踪数据集

大规模高质量单目标跟踪数据集LaSOT

美国天普大学、华南理工大学、亮风台公司

LaSOT: A High-Quality Benchmark for Large-Scale Single Object Tracking

Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling

https://cis.temple.edu/lasot/index.html

用于支持研究自动驾驶汽车感知任务（3D 跟踪与运动预测）的数据集Argoverse

Argo AI、卡内基梅隆大学、佐治亚理工学院

Argoverse: 3D Tracking and Forecasting With Rich Maps

Ming-Fang Chang, John Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, James Hays

https://www.argoverse.org/

英伟达推出首个跨摄像头汽车跟踪与冲重识别数据集

华盛顿大学、NIVIDIA、圣何塞州立大学

CityFlow: A City-Scale Benchmark for Multi-Target Multi-Camera Vehicle Tracking and Re-Identification

Zheng Tang, Milind Naphade, Ming-Yu Liu, Xiaodong Yang, Stan Birchfield, Shuo Wang, Ratnesh Kumar, David Anastasiu, Jenq-Neng Hwang

https://www.aicitychallenge.org/

2.VOT2018：SiamNet大崛起

3.CVPR 2019 论文大盘点-目标跟踪篇