ECO论文翻译：Efficient Convolution Operators for Tracking论文翻译

最新推荐文章于 2023-10-25 14:36:48 发布

denghe1122

最新推荐文章于 2023-10-25 14:36:48 发布

阅读量5.6k

点赞数 9

分类专栏：论文翻译目标检测与目标跟踪

目标检测与目标跟踪同时被 2 个专栏收录

27 篇文章 15 订阅

订阅专栏

论文翻译

6 篇文章 1 订阅

订阅专栏

摘要

近些年来，在目标追踪领域，基于判别式相关滤波（DCF）的方法明显体现了最高水平。不过，曾经追求提高包括提取特征的速度和实时性等追踪性能（的研究）,已经逐渐黯然失色。在将来，越来越复杂的、并且包含大量训练参数的模型,已经引入了重度过拟合的风险（意思是，越来越复杂的模型，更容易引起很严重的过拟合）。本次工作中，我们处理复杂计算和过拟合问题背后的关键问题，并且，同时改善速度和精度。

我们回顾了 DCF 的核心公式，并介绍了以下几点：（i）、对卷积操作进行因式分解，大大地减少模型中的参数。（ii）、生成一个紧凑（简洁）的训练样本分布的模型，大大地减少内存和时间复杂度。同时，提供更好的样本多样性。（iii）、一个保守的模型更新策略，提高鲁棒性和减少复杂度。我们在以下四个基准下进行综合实验： VOT2016、UAV123、OTB-2015 和 TempleColor。当使用昂贵的深度特征，我们的追踪器提供 20 倍的加速，并且在 VOT2016挑战赛上，在 Expected Average Overlap【EAO：跟踪框zhunquelv】方面，和排名第一的方法相比，获得了13.0%的相对增益（就是准确率提高了13%）。此外，我们一个快速的版本，使用 hand-crafted特征【即直接设计特征本身，根据仿照人类视觉的特点对什么样的特征敏感，什么样的特征不敏感提取图像中有区分能力的特征，因此提取出来的特征每一维往往都有具体的物理含义。比如sift surf等都属于】，在单CPU下以60HZ 速度，在OTB-2015上获得了65.0%的AUC。

1.Introduction

一般的视觉追踪是计算机视觉领域的基本问题之一。它是这样一种任务：只给定初始状态（即在第一帧中框选出目标），然后估计目标在图像序列中的轨迹。在线视觉追踪在许多实时视觉应用中，扮演着重要角色，比如智能监控系统、自动驾驶、无人机监控、智能交通管制、人机交互等。因为在线跟踪的本质，一个理想的追踪器应该在实时视觉系统的严格约束下，还保持精确度和鲁棒性。

近些年来，基于判别式相关滤波（DCF）的一些方法 ,在追踪基准测试中，就准确性和鲁棒性而言，不断呈现出性能上的改进。近来的一些DCF方法在改善追踪性能上，有采用多维特征的、鲁棒的尺度估计、非线性内核、长期记忆元件、复杂的学习模型、减少边界效应。但是，这些在精度上的改进，都是以牺牲速度为代价。例如，由Bolme等人设计的具有开创意义的 MOSSE 滤波器，比VOT2016挑战赛中最好的DCF滤波器——C-COT速度快了1000倍，但是仅仅获得其一半的精度。

正如上文所提到的，DCF跟踪的改进版本主要归功于强大的特征和复杂的学习公式。这在本质上产生了更大的models，需要成百上千的训练参数。另一方面，如此复杂而又庞大的模型，已经极有可能导致严重的过拟合。在这篇文章中，我们在最近的追踪器上，当恢复他们的实时能力时，处理过拟合问题。【这句话翻译的不对，原文是这样的：In this paper,we tackle the issues of over-fitting in recent DCF trackers,while restoring their hallmark real-time capabilities.如果你有比较好的翻译，望告知】。

1.1 Motivation

我们在最先进的 DCF 追踪器上，总结出出导致计算复杂性和过拟合的三个关键因素。

模型大小（Model size）[还可以理解为特征的复杂度]:高维特征图的集成，比如深度特征，会导致外观模型参数数量上的根本性的提高，（这参数的维度）往往会超过输入图像的维度。比如说，C-COT 在每次在线学习模型的时候，需要更新 800000 个参数。由于在追踪中，训练数据的固有不足，如此高维度的参数空间很容易引起过拟合。此外，这高维度还提高了计算的复杂性，进而导致较慢的跟踪速度。

训练集的大小（Trainng set size）:包括C-COT在内的非常先进的DCF追踪器，由于依赖迭代优化算法，（追踪算法）需要存储一个大量的训练样本集。但在实际中，内存空间始终是有限的，特别是在使用高维度特征时。保持内存空间充足的典型策略是舍弃旧的数据。但是最新的样本特征的变化仍然会引起过拟合和模型漂移【比如说，如果目标被遮挡或者丢失，比较新的样本数据本身就是错误的】。此外，大量的训练集也增加了计算负担。

模型更新（Model update）:绝大多数基于DCF的追踪器采用持续学习策略，对于每一帧，都严格地更新一次模型。相反地，最近的一些工作：使用Siamese networks【一种相似性度量方法】，不进行模型更新，也显示出较好的效果。在这些发现的推动下，我们发现，DCF 持续更新的模型对样本的突然变化非常敏感。这些变化包括尺度变化、（目标）变形和平面外的旋转。这种过度的更新策略会导致低帧率和鲁棒性的退化，因为，（追踪器）会对最新的几帧数据过拟合。

1.2 Contribution

我们提出一个新的构想，来处理上述列举的 DCF 追踪器的问题。我们的第一个贡献是：我们引入了一个分解卷积运算符，大大减少了 DCF 模型中参数的数量。第二个贡献是简化训练样本空间，有效减少了样本的数量，同时还可以保持样本的多样性。我们最后一个贡献是，引入了一个模型更新策略，同时改善了追踪速度和精度。

综合实验清楚地表明，我们的方法可以同时改善速度和精度，从而在VOT2016、UAV123、OTB-2015 和 TempleColor 四个测试基准上重新设立了最高标准。和 baseline 相比，我们的方法减少了80%的模型参数，90%的训练样本和优化迭代的80%。在 VOT 2016挑战赛上，我们的方法胜过了排名第一的 C-COT,同时获得了较高的 frame-rate。

同时，我们还整出一个快速简洁版本，性能还是很不错的，在单个CPU上能跑出60FPS，从而更适合计算能力受限的机器平台。

2.Baseline Approach:C-COT

本次工作中，我们共同解决DCF追踪器中的计算复杂度和过拟合问题。我们采用之前的研究成果C-COT作为baseline.C-COT 在VOT2016挑战赛中，获得了第一名，并且在其它测试平台上表现出色。与标准DCF公式不同，Danelljan 等人提出在连续空间域学习滤波器。在C-COT中的广义公式给我们的相关工作带来了两个优点。

第一个优点是，C-COT 通过在连续域中进行卷积，来使多分辨率的特征图自然集成。这使得我们可以独立灵活地选择每个视觉特征的 cell size，即分辨率，而不需要显式地重采样。第二个优点是，预测目标检测的得分，可以像连续函数一样获得，从而使子网格sub-grid 定位更准确。

现在，我们简要描述一下C-COT的公式。为了方便起见，我们采用和文献【12】相同的数学符号。【由于公式在CSDN上太难编辑，所以我在word上编辑好，然后截图】

3.Our Approach

正如前面讨论的一样，在DCF的学习中的过拟合和计算复杂性，均来自于常见的因素。因此，我们集中处理这些问题，以提高算法的速度和精度。

Robust learning（鲁棒性学习）:正如之前所提到的那样，因为数据集是有限的，在公式（3）中，大量的优化参数可能会引起过拟合。我们通过3.1介绍因式分解卷积滤波器来缓解这个问题，当提高追踪性能的时候，，就深度特征（deep features）来说，这个策略减少了了80%的模型参数。此外，在3.2中，我们提出一个紧凑的生成的样本滤波模型,促进样本的多样性，避免存储大量的数据集。最后，在3.3中，我们提出了模型更新策略，以较低的频率更新滤波器，从而使跟踪更鲁棒。

Computational complexity(计算复杂性): 在优化DCF算法时（比如说C-COT），学习步骤是计算瓶颈。 C-COT中的外观模型（appearance model）优化的计算复杂性是通过分析公式（5）的共轭梯度法。这复杂度是

,其中， N CG 是CG（共轭梯度法）的迭代次数。

是每一个 filter channel 的傅里叶级数的平均值。最后，我们提出方法，减小D,M,和NCG

3.1 Factorized Convolution Operator(因式分解卷积)

我们是第一次介绍因式分解卷积，为的是减少参数模型的数量。我们发现，在C-COT中，学习到的滤波器 f 很多都是可以被忽略的。这对于高维的深度特征更加明显，如图2所示。这些滤波器并不会有助于目标定位，反而会影响训练时间。我们不给每一个通道 d 都分别学习出来一个滤波器，我们采用一组更小的基滤波器 f1,f2,...fC，其中 C < D。然后，特征层 d 的滤波器由基滤波器 f C 和系数Pd,c组成：这个系数Pd,c可以被写成一个 D * C维的矩阵 P=（Pd,c）。接着，这新的多通道滤波器可以被表示为矩阵矢量积 Pf。我们获得因式分解卷积操作符：

【今天就先翻译到这儿吧，明天接着翻译】