【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法-CSDN博客

不同于在目标检测和识别等领域取得的丰硕成果，深度学习在目标跟踪领域进展相对缓慢，很大原因是缺乏数据——目标跟踪只有第一帧的标定框作为训练数据，在这种情况下训练一个深度模型十分困难。现有的基于深度学习的方法从几个不同的角度解决这个问题，但在跟踪速度和精度方面仍有很大的提升空间。

在目标追踪界泰斗、UC Merced 杨明玄教授的指导下，香港城市大学、阿德莱德大学、SenseNet的研究人员从深度学习的角度出发，提出了一种端到端的跟踪模型，将特征提取和响应生成融合在深度学习框架中，只采用单层卷积的端到端结构，就达到了利用深度特征的传统协同滤波器的效果。

在此基础上，研究人员还引入残差学习来有效维持模型在目标运动中的预测性能，这也是残差学习的概念首次被用于目标跟踪领域。实验表明，新方法在标准的数据库中取得了state-of-the-art的精度效果。该工作将于10月末在意大利威尼斯举办的计算机视觉顶会ICCV 2017中面向全球学者进行呈现。新智元独家抢先对其内容进行详细报道。

目标跟踪（Object Tracking）一直是计算机视觉中应用广泛而且富有挑战性的问题。简单说，目标跟踪就是在一段视频中，给定第一帧目标物体的位置和大小信息（标定框）后，让跟踪算法在后续的每一帧中对目标物体的位置和大小进行预测。

跟踪算法实时确定目标物体状态，为进一步智能分析提供了先决条件。目标跟踪技术在安防、人机交互和无人驾驶等一系列领域中都有应用。

donkey_4842eba5-5908-49b2-a13c-34480d48e

安防监控场景中行人跟踪和轨迹预测

donkey_7b5e80c9-a4c2-4c7a-a96f-dd2210229

人机交互中对人手势的跟踪和识别

donkey_10db6de2-d52e-424d-8572-4b9b781a8

无人驾驶中临近车辆的跟踪和跟随行驶

在实际应用中，目标跟踪算法的效果受很多因素的制约，本质是由于物体在视频中出现的各种无法预测的变化。典型的制约因素包括：

物体在视频中从初始帧到当前帧，光照情况发生了剧烈的变化

donkey_0548444a-a322-4691-9122-3a9c3ec3c

donkey_a83e0171-2dc9-4e0b-a8eb-5e4a2d6ce

物体在视频中运动姿态发生了很大的变化

donkey_752dd534-8e64-4ee2-b54f-2e0a27324

donkey_3bc72e5d-b160-44c6-a135-d00ca73e6

物体在视频中出现了局部遮挡或全局遮挡的情况

donkey_899afa11-192f-49d3-b22c-dea9dec86

donkey_5437193f-fa3c-4809-927d-70fc06ebf

物体在视频中与相似背景的混杂（目标汽车的尾灯和迎面而来汽车的头灯）

donkey_2f246657-16f5-4a6a-a54d-789f34f11

donkey_fc543b5c-dcf9-4695-a5f0-df2f5bbc3

物体在视频中的大小发生了显著的变化

donkey_0b76cc7f-e71a-43fa-9743-88cdeab9c

donkey_0780e98a-51f4-4a78-9993-5e56131d2

现实中制约目标跟踪的因素还有很多。为了克服这些因素带来的不良影响，目前主流的跟踪算法多采用深度卷积特征和传统的协同滤波相结合的方式。虽然在性能上得到了提升，但是深度学习的架构优势并未得到充分的利用（比如HCFT[1]，DeepSRDCF[2]，C-COT[3]）。

另一方面，有一些深度学习模型将跟踪问题转化为了处理物体检测（MDNet[4]）和校验（SINT[5]）的思路。但是，这种方法在不利用额外的跟踪视频做训练的前提下，其精度无法匹及协同滤波。

下面要介绍的这项工作，从深度学习的角度出发，提出了一种端到端的跟踪模型，并用残差式学习来有效维持模型在目标运动中的预测性能，在标准的数据库中取得了state-of-the-art的精度效果。有鉴于其性能优异，方法创新——首次将残差学习应用于目标追踪，该工作已被ICCV 2017接收。

donkey_4c34a925-cd5d-4a6f-8afb-e1fd87265

“CREST”（Convolutional RESidual learning for visual Tracking），也有勇攀高峰之意

充分挖掘深度学习在追踪算法研究中的优势，构建端到端的深度模型做预测

虽然深度学习方法在物体检测和识别方面已经取得了优异的效果，但是在物体跟踪的算法研究中，主流方向依然集中在协同滤波器的各种拓展。纵然使用深度学习，也只是将深度卷积特征作为传统特征的替代，提升跟踪的精度。

协同滤波的优势在于其在频率域的快速运算和对物体位置的密集估计特性，这一优点一直吸引研究人员在此框架内不断做新的探索。但是，协同滤波方法并非没有局限。首先，协同滤波跟输入特征没有关联，这样一个结构并没有对跟踪这个问题有专门的改进。其次，协同滤波器的在线更新方法是人先验设定的，并没有随着物体的在线变化过程而做自适应的调整。

那么，有没有方法改进上述问题呢？从本质上说，协同滤波器是一个与物体特征做卷积从而生成二维高斯响应的过程。训练协同滤波器的系数，即为衡量卷积后的响应与真实高斯响应偏差多少的操作。

donkey_458f76f7-d2db-45e5-b99b-9bbf9ba10

协同滤波将物体回归为二维高斯核，其峰值即为物体中心位置。

研究人员发现，这样一种训练方式，可以用L2损失函数训练单层卷积层来等价替换。采用单层卷积替代协同滤波的好处是，特征提取和高斯响应的生成可以紧密地结合在一起，为端到端的训练和预测提供了基础。此外，由于训练卷积层可以采用梯度下降的优化方法，就能够对整个框架为了实现跟踪任务进行一体的优化。另外，在线模型更新的过程也是网络根据物体的变化情况做自适应的调整。相比于传统协同滤波计算封闭解的方法和固定更新方法的人为先验设置，深度学习的优化框架无疑是更优越的。

donkey_fc2a6bd3-9df4-4367-a53f-39e2d789a