High-Speed Tracking with Kernelized Correlation Filters翻译

摘要

大多数当代的跟踪器的核心组件是判别性分类器,其任务是区分目标和周围环境。 为了应对自然的图像变化,通常使用translated and scaled的样本块来训练该分类器。 这样的样本集充满了冗余-任何重叠的像素都被认为是相同的类。 基于这个简单的观察,我们为成千上万个translate patches的数据集提出了一个分析模型。 通过结果显示数据矩阵是循环的,我们可以使用离散傅立叶变换对角化它,将存储和计算量减少几个数量级。 有趣的是,对于线性回归,我们的公式等效于一些最快的竞争跟踪器使用的相关滤波器。 但是,对于内核回归,我们提出了一个新的内核相关滤波器(KCF),与其他内核算法不同,它与线性算法具有完全相同的复杂性。 在此基础上,我们还通过线性内核(称为双重相关滤波器(DCF))提出了线性相关滤波器的快速多通道扩展。 尽管KCF和DCF在每秒50帧的速度下运行,并且以几行代码实现(算法1),但它们在50个视频基准上的性能均优于Struck或TLD等顶级跟踪器。 为鼓励进一步的发展,我们将跟踪框架设为开源。

1引言

可以说,最近的视觉跟踪研究的最大突破之一是判别性学习方法的广泛采用。 跟踪任务是许多计算机视觉系统的重要组成部分,可以自然地指定为在线学习问题[1],[2]。
给定包含目标的初始图像快,目标是学习分类器以区分其外观和环境外观。 可以在许多位置穷举评估该分类器,以便在后续帧中对其进行检测。 当然,每次新检测都会提供一个新的图像块,可用于更新模型。
吸引人的重点是表征感兴趣的对象-分类器的正样本。 但是,判别方法的核心原则是给予相关环境同样多的重视,甚至更多。 最常用的负样本是来自不同位置和比例的图像块,反映了在这些条件下将对分类器进行评估的先验知识。
一个极具挑战性的因素是可以从图像中获得的负样本数量实际上是无限的。 由于跟踪的时间敏感性,现代跟踪器在尽可能多地合并样本和保持较低的计算需求之间寻找一个平衡点。 通常的做法是每帧随机选择几个样本[3],[4],[5],[6],[7]。
尽管这样做的原因是可以理解的,但我们认为负采样不足是抑制跟踪性能的主要因素。 在本文中,我们开发了工具,以分析方式合并成千上万个具有不同相对转换的样本,而无需对其进行显式迭代。 通过发现,在傅里叶域中,如果我们使用特定的模型进行转变,则随着我们添加更多样本,某些学习算法实际上会变得更加容易,这使得这成为可能。
这些分析工具,即循环矩阵,在流行的学习算法和经典信号处理之间提供了有用的桥梁。 这意味着我们能够基于Kernel Ridge回归[8]提出一种跟踪器,该跟踪器不会遭受“核化的灾难”,它的渐近复杂性更大,甚至比非结构化线性回归具有更低的复杂性。 相反,它可以看作是线性相关滤波器的内核版本,它构成了可用的最快跟踪器的基础[9],[10]。 我们以与线性相关滤波器相同的计算复杂度来利用强大的内核技巧。 我们的框架可以轻松地合并多个特征通道,并且通过使用线性内核,我们可以将线性相关滤波器快速扩展到多通道情况。

2相关工作

2.1基于检测的跟踪

对基于检测的跟踪的全面回顾不在本文的讨论范围之内,但是我们向有兴趣的读者介绍两项出色的且非常近期的调查[1],[2]。 最受欢迎的方法是使用可区分的外观模型[3],[4],[5],[6]。 它包括在统计机器学习方法的启发下在线培训分类器,以预测图像块中目标的存在或不存在。 然后在许多候选补丁上对该分类器进行测试,以找到最可能的位置。 或者,也可以直接预测位置[7]。 具有类标签的回归可以看作是分类,因此我们可以互换使用这两个术语。
在关注与我们的分析方法更直接相关的文献之前,我们将讨论一些相关的跟踪器。 基于检测的跟踪范式的典型示例包括基于支持向量机(SVM)[12],随机森林分类器[6]或增强变量[13],[5]的示例。 所有提及的算法都必须适用于在线学习,以便对跟踪有用。 张等。 [3]提出了一个固定随机基础上的投影,以训练受压缩感测技术启发的朴素贝叶斯分类器。 Hare等人旨在直接预测目标的位置,而不是在给定的图像块中预测目标的位置。 [7]基于大量图像特征,采用了结构化输出SVM和高斯核。 非歧视性追踪器的例子包括Wu等人的工作。 Sevilla-Lara和Learned-Miller [15]等人[14]将跟踪定为一系列图像对齐目标,Sevilla-Lara和Learned-Miller [15]提出了基于分布场的强外观描述符。 Kalal等人的另一种判别方法。 [4]使用一组结构约束来指导升压分类器的采样过程。 最后,Bolme等。 [9]采用经典的信号处理分析来推导快速相关滤波器。
我们将在短期内更详细地讨论这最后两部作品。

2.2关于sample translations和相关过滤

回想一下,我们的目标是有效学习和检测转变后的图像块。 与我们的方法不同,到目前为止,大多数尝试都集中在尝试清除不相关的图像块。 在检测方面,可以使用分支定界法找到分类器响应的最大值,同时避免出现没有希望的候选补丁[16]。 不幸的是,在最坏的情况下,算法可能仍必须遍历所有块。 一种相关的方法可以有效地找到一对图像中最相似的色块[17],但不能直接转换为我们的设置。 尽管它不排除穷举搜索,但值得注意的优化是使用快速但不准确的分类器来选择有希望的补丁,而仅对那些[18],[19]应用完整,较慢的分类器。
在训练方面,Kalal等人。 [4]提出使用结构约束从每个新图像中选择相关的样本块。 这种方法比较昂贵,限制了可以使用的功能,并且需要仔细调整结构启发式方法。 尽管主要用于离线检测器学习,但一种流行且相关的方法是难例挖掘[20]。 它包括在图像池上运行初始检测器,然后选择任何错误的检测作为样本进行重新训练。 即使两种方法都减少了训练样本的数量,但主要的缺点是必须通过运行检测器来详尽地考虑候选块。
我们研究线的最初动机是相关滤波器最近在跟踪方面的成功[9],[10]。 事实证明,相关滤波器在更复杂的方法上具有竞争优势,但仅使用一小部分的计算能力(每秒数百帧)。
他们利用了以下事实:两个块的卷积(松散地,它们的点积在不同的相对平移下)等效于傅立叶域中的逐元素乘积。 因此,通过在傅立叶域中制定其目标,他们可以一次为多个平移或图像平移指定线性分类器的期望输出。
傅里叶域方法可能非常有效,并且有几十年的信号处理研究可以借鉴[21]。 不幸的是,它也可能是极其有限的。
我们希望同时利用计算机视觉方面的最新进展,例如更强大的功能,较大的分类器或内核方法[22],[20],[23]。
一些研究朝这个方向发展,并尝试将核方法应用于相关过滤器[24],[25],[26],[27]。 在这些作品中,必须在两种类型的目标函数之间进行区分:不考虑功率谱或图像转换的目标函数,例如合成判别函数(SDF)滤波器[25],[26],以及那些不考虑功率谱或图像转换的目标函数, 例如最小平均相关能量[28],最佳折衷[27]和最小输出平方和误差(MOSSE)滤波器[9]。 由于可以有效地忽略空间结构,因此前者更易于内核化,并且已经提出了内核SDF滤波器[26],[27],[25]。 然而,由于缺乏清晰的转换图像,非线性内核和傅立叶域之间的关系,将内核技巧应用于其他滤波器已被证明更加困难[25],[24],其中一些建议需要明显更长的计算时间并具有强大的功能。 可以考虑的图像移位数量限制[24]。
对我们来说,这暗示了转换图像块和训练算法之间需要更深的联系,以克服直接傅立叶域公式化的局限性。

2.3后续工作

自这项工作的最初版本[29]以来,提出的循环移位模型的一个有趣的时域变体已经非常成功地用于视频事件检索[30]。
还提出了将线性相关滤波器推广到多个通道的方法[31],[32],[33],其中一些建立在我们最初的工作上。 这使他们可以利用更多现代功能(例如,“定向梯度直方图– HOG”)。 还提出了对其他线性算法(如支持向量回归)的推广[31]。
我们必须指出,所有这些工作都是针对离线训练的,因此依赖较慢的求解器[31],[32],[33]。 相反,我们专注于快速元素操作,即使使用内核技巧,也更适合于实时跟踪。

3贡献

这项工作的初步版本已在较早的时候提出[29]。 它首次证明了具有循环移位样本的Ridge回归与经典相关滤波器之间的联系。 这样就可以使用O(n log n)快速傅立叶变换而不是昂贵的矩阵代数进行快速学习。 尽管限于单个通道,但也提出了第一个内核化相关滤波器。
此外,它提出了封闭形式的解决方案来计算所有循环移位的内核。 它们承担相同的O(n log n)计算成本,并且是基于径向和点积核导出的。
目前的工作通过重要的方法添加到初始版本中。 所有原始结果均使用更简单的对角化技术重新得出(第4-6节)。 我们将原始工作扩展为涉及多个渠道,从而允许使用可显着提升性能的最新功能(第7节)。 在初始结果中添加了相当多的新分析和直观说明。 我们还将原始实验的视频范围从12个扩展到了50个,并添加了新的Kernelized Correlation Filter(KCF)跟踪器变体,它基于HOG功能而非原始像素。
通过线性内核,我们还提出了一种具有非常低的计算复杂度的线性多通道滤波器,该滤波器几乎与非线性内核的性能相匹配。 我们将其命名为双相关滤波器(DCF),并显示它与一组最近的,更昂贵的多通道滤波器之间的关系[31]。 通过实验,我们证明了KCF在没有任何特征提取的情况下已经比线性滤波器表现更好。 借助HOG功能,线性DCF和非线性KCF都可以大幅度胜过排名靠前的跟踪器(例如Struck [7]或Track-Learn-Detect(TLD)[4]),同时可以每秒数百帧的速度舒适地运行。

4构建块

在本节中,我们为在不同平移条件下提取的图像块提出一个分析模型,并研究其对线性回归算法的影响。 我们将展示与经典相关滤波器的自然潜在联系。
我们开发的工具将使我们能够在第5-7节中研究更复杂的算法。

4.1线性回归

我们将集中在Ridge回归上,因为它接受一个简单的封闭形式的解决方案,并且可以实现接近更复杂方法(如支持向量机[8])的性能。 训练的目的是找到一个函数f ( z ) = w T z \boldsymbol{f}\left( \boldsymbol{z} \right) =\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{z}f(z)=wTz,该函数可使样本xi及其回归目标yi的平方误差最小化,
在这里插入图片描述
像SVM中一样,λ是控制过度拟合的正则化参数。 如前所述,最小化器具有闭合形式,由[8]给出
在这里插入图片描述

其中数据矩阵X每行xi有一个样本,并且y的每个元素都是回归目标yi。 I是一个单位矩阵。
从4.4节开始,我们将不得不在傅立叶域中工作,在傅立叶域中,数量通常是复数值。 只要我们使用公式2的复杂版本,它们就不难处理。
在这里插入图片描述
其中X H \boldsymbol{X}^{\boldsymbol{H}}XH是厄米特转置,即X H = ( X ∗ ) T \boldsymbol{X}^{\boldsymbol{H}}=\left( \boldsymbol{X}^* \right) ^{\boldsymbol{T}}XH=(X∗)T,而X ∗ \boldsymbol{X}^*X∗是X的复共轭。 公式3减少到公式2。

通常,必须解决大型线性方程组以计算解决方案的情况,这在实时设置中可能会变得令人望而却步。 在接下来的段落中,我们将看到xi的特殊情况,它绕过了这一限制。

4.2循环移位

为了简化符号,我们将重点介绍单通道一维信号。 这些结果以简单的方式推广到多通道二维图像(第7节)。
考虑一个n×1的矢量,该矢量表示带有感兴趣对象的面片,表示为x。 我们将其称为基本样本。 我们的目标是训练带有基本样本(正例)和通过转换获得的多个虚拟样本(用作负例)的分类器。 我们可以使用循环移位算子对此向量进行一维平移建模,这是置换矩阵
在这里插入图片描述
乘积P x    = [ x n , x 1 , x 2 , ⋯   , x n − 1 ] T \boldsymbol{Px}\,\,=\left[ \boldsymbol{x}_{\boldsymbol{n}},\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots ,\boldsymbol{x}_{\boldsymbol{n}-1} \right] ^{\boldsymbol{T}}Px=[xn​,x1​,x2​,⋯,xn−1​]T
将x移位一个元素,为一个小的平移建模。 我们可以使用矩阵幂P u x \boldsymbol{P}^{\boldsymbol{u}}\boldsymbol{x}Pux
链接u移位以获得更大的平移。 负的u将向相反方向移动。
用此模型水平转换的1D信号如图3所示,而2D图像的示例如图2所示。
细心的读者会注意到,最后一个元素回绕了一下,相对于真正的平移会引起一些失真。 但是,可以通过适当的填充和开窗来缓解此不良特性(第A.1节)。 即使对于较大的转换,信号的大部分元素仍然可以正确建模(见图2),这一事实说明了观察到循环移位在实践中效果很好。
由于具有循环特性,我们每n个移位会定期获得相同的信号x。 这意味着通过
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
同样由于循环特性,我们可以等效地将此集合的前半部分视为正向移动,而将后半部分视为负向移动。

4.3循环矩阵

为了计算移位样本的回归,我们可以使用方程组 5作为数据矩阵X的行:
在这里插入图片描述

图3给出了所得模式的说明。
我们刚刚得出的是一个循环矩阵,它具有几个有趣的特性[34],[35]。 请注意,该模式是确定性的,并完全由生成矢量x(即第一行)指定。
也许最令人惊奇和有用的事实是,不管生成矢量x是什么,所有循环矩阵都通过离散傅立叶变换(DFT)做成对角线。 这可以表示为
在这里插入图片描述
其中F是不依赖x的常数矩阵,x ^ \boldsymbol{\hat{x}}x^
表示生成矢量的DFT,x ^ = F ( x ) \boldsymbol{\hat{x}}=\mathcal{F}\left( \boldsymbol{x} \right)x^=F(x)
从现在开始,我们将始终使用hat ^作为向量DFT的简写。
常数矩阵F被称为DFT矩阵,并且是计算任何输入矢量的DFT的唯一矩阵,如F ( z ) = n F z \mathcal{F}\left( \boldsymbol{z} \right) =\sqrt{\boldsymbol{n}}\boldsymbol{Fz}F(z)=n​Fz
。 这是可能的,因为DFT是线性操作。
公式7表示一般循环矩阵的本征分解。 共享的确定性特征向量F位于许多不常见特征的根源,例如可交换性或闭式反演。

4.4全部放在一起

现在,我们可以应用这一新知识来简化公式3中的线性回归。 ,当训练数据由循环移位组成时。 能够单独使用对角矩阵非常吸引人,因为所有操作都可以在其对角元素上逐元素进行。
采取术语X H X \boldsymbol{X}^{\boldsymbol{H}}\boldsymbol{X}XHX,可以将其视为非中心协方差矩阵。 在里面取代公式7 ,
在这里插入图片描述
由于对角矩阵是对称的,因此仅将厄米特转置留在复共轭x ^ ∗ \boldsymbol{\hat{x}}^*x^∗
后面即可。此外,我们可以消除因子F H F = I \boldsymbol{F}^{\boldsymbol{H}}\boldsymbol{F}=\boldsymbol{I}FHF=I
.此属性是F的单位性,可以在许多表达式中抵消。 我们留下了
在这里插入图片描述
由于对角矩阵的运算是按元素的,因此我们可以将按元素的乘积定义为⊙ \odot⊙并获得
在这里插入图片描述
一个有趣的方面是,括号中的矢量被称为信号x的自相关(在傅立叶域中,也称为功率谱[21])。 在经典信号处理中,它包含随时间变化的时差(对于我们的情况而言是空间),该时差针对不同的时滞。
上面的步骤总结了用循环矩阵对角化表达式时所采用的一般方法。 将它们递归地应用于线性回归的完整表达式(公式3),我们可以将大多数数量放在对角线内,
在这里插入图片描述
甚至更好
在这里插入图片描述

分数表示按元素划分。 我们可以使用逆DFT在空间域中轻松恢复w,其成本与前向DFT相同。 产生等式的递归对角化的详细步骤。 附录A.5中给出了12个。
在这一点上,我们刚刚从经典信号处理中发现了一个意外的公式-解决方案是一个正则化相关滤波器[9],[21]。
在进一步探讨这种关系之前,我们必须强调方程的计算效率。 与显式提取块并解决一般回归问题的流行方法相比,它具有公式12所示的功能。 例如,岭回归的成本为O n3,受限于矩阵求逆和乘积。 另一方面,等式中的所有运算。 除了DFT以外,公式12中的元素是按元素计算的(O(n)),DFT将成本限制在接近线性的O(n log n)。 对于典型的数据大小,这将存储和计算量减少了几个数量级。

4.5与相关滤波器的关系

自80年代以来,相关滤波器一直是信号处理的一部分,它对傅立叶域中的众多目标函数进行了求解[21],[28]。 最近,它们重新出现为MOSSE滤波器[9],尽管它们具有简单性和较高的FPS率,但它们在跟踪方面表现出卓越的性能。
这些过滤器的解决方案看起来像公式 12(请参阅附录A.2),但有两个关键区别。 首先,MOSSE滤波器是从在傅立叶域中专门制定的目标函数中得出的。 其次,以特殊方式添加λ正则化器,以避免被零除。 通过将起点指定为具有循环移位的Ridge回归,并得出相同的解,我们在上面显示的推导提供了相当多的见识。
循环矩阵使我们能够丰富经典信号处理和现代相关滤波器提出的工具集,并将傅里叶技巧应用于新算法。 在下一节中,我们将在训练非线性滤波器中看到一个这样的实例。

5非线性回归

允许使用更强大的非线性回归函数f(z)的一种方法是“内核技巧” [23]。 最吸引人的品质是,尽管存在不同的变量集(对偶空间),但优化问题仍然是线性的。
不利的一面是,随着样本数量的增加,评估f(z)的复杂性通常会增加。
但是,使用我们的新分析工具,我们将证明有可能克服这一局限性,并获得与线性相关滤波器一样快的非线性滤波器,从而进行训练和评估。

5.1内核技巧–简要概述

本节将简要回顾内核技巧,并定义相关的符号。
使用内核技巧将线性问题的输入映射到非线性特征空间φ ( x ) \boldsymbol{\varphi }\left( \boldsymbol{x} \right)φ(x)
包括:1)将解w表示为样本的线性组合:
在这里插入图片描述
因此,优化中的变量是α,而不是w。 相对于原始空间w,该替代表示α处于对偶空间(Representer Theorem [23,p。89])。
1)根据点积KaTeX parse error: Expected group after '^' at position 111: … \boldsymbol{x}^̲' \right) =\bol…
编写算法,该点积使用核函数κ(例如,高斯或多项式)进行计算。
所有样本对之间的点积通常存储在n×n核矩阵K中,其中元素
在这里插入图片描述
内核技巧的力量来自隐式使用高维特征空间φ ( x ) \boldsymbol{\varphi }\left( \boldsymbol{x} \right)φ(x)
,而无需在该空间中实例化矢量。 不幸的是,这也是它的最大弱点,因为回归函数的复杂度会随着样本数量的增加而增加,
在这里插入图片描述
在接下来的小节中,我们将展示假设循环数据,如何避免内核技巧的大多数弊端。

5.2快速核回归

由[8]给出了岭回归的核化版本的解决方案。
在这里插入图片描述

其中K是核矩阵,α是系数αi的矢量,它们表示对偶空间中的解。
现在,如果可以证明K对于循环移位数据集是循环的,则可以对等式对角化。 参照公式16,可以获得线性情况的快速解决方案。 从直觉上看,这似乎是正确的,但一般而言并不成立。 任意非线性映射φ ( x ) \boldsymbol{\varphi }\left( \boldsymbol{x} \right)φ(x)
不能保证我们保留任何类型的结构。 但是,我们可以施加一个条件,该条件将允许K循环。 事实证明它相当广泛,并且适用于大多数有用的内核。

定理1.给定循环数据C(x),对于任何置换矩阵M,如果内核函数满足KaTeX parse error: Expected group after '^' at position 57: …,\boldsymbol{x}^̲' \right) =\bol…
,则对应的内核矩阵K是循环的。
有关证明,请参阅附录A.2。 这意味着,要使内核保持循环结构,它必须平等对待数据的所有维度。 幸运的是,其中包括最有用的内核。

示例2。以下内核满足定理1:
•径向基函数内核–例如,高斯。
•点积核–例如,线性,多项式。
•加性内核–例如,交集,χ2和Hellinger内核[36]。
•指数加核。

检查这一事实很容易,因为同时对x \boldsymbol{x}x和x ′ \boldsymbol{x}'x′
的维进行重新排序不会更改这些内核的
κ ( x , x ′ ) \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right)κ(x,x′)。 这适用于通过交换运算来组合维的任何内核,例如求和,乘积,最小值和最大值。知道我们可以使用哪些内核使K循环,就可以对公式16进行对角化。 与线性情况一样:
在这里插入图片描述
其中k x x \boldsymbol{k}^{\boldsymbol{xx}}kxx是内核矩阵K = C ( k x x ) \boldsymbol{K}=\boldsymbol{C}\left( \boldsymbol{k}^{\boldsymbol{xx}} \right)K=C(kxx)的第一行,并且再次用^表示向量的DFT。 详细推导在附录A.3中。为了更好地了解k x x \boldsymbol{k}^{\boldsymbol{xx}}kxx的作用,我们发现定义更通用的内核相关性很有用。 两个任意向量x \boldsymbol{x}x和x ′ \boldsymbol{x}'x′的核相关性是具有元素的向量k x x ′ \boldsymbol{k}^{\boldsymbol{xx}'}kxx′

在这里插入图片描述

换句话说,它包含针对两个参数的不同相对移位而评估的内核。 那么k ^ x x \boldsymbol{\hat{k}}^{\boldsymbol{xx}}k^xx是x在傅立叶域中与其自身的核相关性。 与线性情况类似,我们可以将其称为内核自相关。
这个类比可以进一步推论。 由于内核等效于高维空间中的点积φ ( ⋅ ) \boldsymbol{\varphi }\left( \cdot \right)φ(⋅),因此查看公式18的另一种方法。
在这里插入图片描述

这是高维空间φ ( ⋅ ) \boldsymbol{\varphi }\left( \cdot \right)φ(⋅)中x和x ′ \boldsymbol{x}'x′的互相关。
请注意,我们只需要计算和处理内核自相关,即n×1向量,它随样本数量线性增长。 这与传统的内核方法相反,后者需要计算一个n×n内核矩阵,并与样本进行平方缩放。 我们对K的确切结构的了解使我们比通用算法做得更好。
由于在逐个检测设置中转变块的普遍性,找到最佳α并不是唯一可以加速的问题。 在接下来的段落中,我们将研究循环移位模型对检测阶段甚至在计算内核相关性方面的影响。

5.3快速检测

我们很少单独评估一个图像块的回归函数f(z)。 为了检测感兴趣的对象,我们通常希望在几个图像位置(即几个候选色块)上评估f(z)。这些块可以通过循环移位建模。
用K z \boldsymbol{K}^{\boldsymbol{z}}Kz表示所有训练样本和所有候选补丁之间的(非对称)核矩阵。 由于样本和补丁分别是基本样本x和基本补丁z的循环移位,因此KK z \boldsymbol{K}^{\boldsymbol{z}}Kz的每个元素都由κ ( P i − 1 z , P j − 1 x ) \boldsymbol{\kappa }\left( \boldsymbol{P}^{\boldsymbol{i}-1}\boldsymbol{z},\boldsymbol{P}^{\boldsymbol{j}-1}\boldsymbol{x} \right)κ(Pi−1z,Pj−1x)给出。 容易验证此内核矩阵满足定理1,并且对于适当的内核是循环的。
与5.2节类似,我们只需要第一行即可定义内核矩阵:
在这里插入图片描述
如前所述,其中k x z \boldsymbol{k}^{\boldsymbol{xz}}kxz
是x和z的内核相关性。
从公式15,我们可以计算所有候选块的回归函数
在这里插入图片描述
注意f(z)是一个向量,包含z的所有循环移位的输出,即完整的检测响应。 有效地计算公式21,我们对角化以获得
在这里插入图片描述

直观地,在所有位置评估f(z)可以看作是对内核值k x z \boldsymbol{k}^{\boldsymbol{xz}}kxz
的空间滤波操作。 每个f(z)是来自k x z \boldsymbol{k}^{\boldsymbol{xz}}kxz的相邻内核值的线性组合,并由学习系数α加权。 由于这是过滤操作,因此可以在傅立叶域中更有效地制定公式。

6快速内核相关性

尽管我们找到了更快的训练和检测算法,但它们仍依赖于各自计算一个内核相关性(分别为k x x \boldsymbol{k}^{\boldsymbol{xx}}kxx和k x z \boldsymbol{k}^{\boldsymbol{xz}}kxz)。 回想一下,内核相关包括对两个输入向量的所有相对位移计算内核。 这代表了最后一个计算瓶颈,因为对大小为n的信号对n个内核进行的朴素评估将具有二次复杂度。 但是,使用循环移位模型将使我们能够有效地利用这种昂贵的计算中的冗余。

6.1点积和多项式核

对于某些函数g,点积核的形式为κ ( x , x ′ ) = g ( x T x ′ ) \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right) =\boldsymbol{g}\left( \boldsymbol{x}^{\boldsymbol{T}}\boldsymbol{x}' \right)κ(x,x′)=g(xTx′)然后,KaTeX parse error: Double superscript at position 33: …boldsymbol{xx}}'̲
具有元素
在这里插入图片描述

让g还在任何输入向量上逐个元素地工作。 这样我们就可以写公式 23的矢量格式
在这里插入图片描述

这使其成为对角化的简单目标,从而产生
在这里插入图片描述

其中F − 1 \mathcal{F}^{-1}F−1表示逆DFT。
特别地,对于多项式核κ ( x , x ′ ) = ( x T x ′ + a ) b \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right) =\left( \boldsymbol{x}^{\boldsymbol{T}}\boldsymbol{x}'+\boldsymbol{a} \right) ^{\boldsymbol{b}}κ(x,x′)=(xTx′+a)b
在这里插入图片描述
然后,可以在O(n log n)的时间内仅使用一些DFT / IDFT和逐元素运算就可以为这些特定内核计算内核相关性。

6.2径向基函数和高斯核

对于某些函数h,RBF内核的形式为κ ( x , x ′ ) = h ( ∣ ∣ x − x ′ ∣ ∣ 2 ) \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right) =\boldsymbol{h}\left( ||\boldsymbol{x}-\boldsymbol{x}'||^2 \right)κ(x,x′)=h(∣∣x−x′∣∣2)
。 k x x ′ \boldsymbol{k}^{\boldsymbol{xx}'}kxx′的元素是
在这里插入图片描述
我们将证明(式29)这实际上是点积内核的特例。 我们只需要扩大规范,
在这里插入图片描述

由于Parseval定理[21],排列P i − 1 \boldsymbol{P}^{\boldsymbol{i}-1}Pi−1不会影响x的范数。 由于∣ ∣ x ∣ ∣ 2 ||\boldsymbol{x}||^2∣∣x∣∣2
和∣ ∣ x ′ ∣ ∣ 2 ||\boldsymbol{x}'||^2∣∣x′∣∣2是常数w.r.t. ,公式 28与点积核(公式23)的形式相同。 利用上一部分的结果,
在这里插入图片描述

作为一个特别有用的特殊情况,对于高斯核
在这里插入图片描述
我们得到
在这里插入图片描述
像以前一样,我们只能在O(n log n)的时间内计算出完整的内核相关性。

6.3其他内核

前两节中的方法取决于通过单一转换(例如DFT)使内核值不变。 这通常不适用于其他内核,例如 相交核。 我们仍然可以使用快速训练和检测结果(第5.2节和第5.3节),但是必须使用更昂贵的滑动窗口方法评估内核相关性。

7多通道

在本节中,我们将看到在双通道中工作的好处是可以通过在傅立叶域中简单地对它们进行求和来允许多个通道(例如,HOG描述符的方向仓[20])。 该特性扩展到线性情况,在特定条件下大大简化了最近提出的多通道相关滤波器[31],[32],[33]。

7.1一般情况

为了处理多个通道,在本节中,我们将假设向量x连接C通道的各个向量(例如,HOG变量[20]的31个梯度方向仓),因为x = [ x 1 , . . . , x C ] \boldsymbol{x}=\left[ \boldsymbol{x}_1,...,\boldsymbol{x}_{\boldsymbol{C}} \right]x=[x1​,...,xC​]
请注意,第6节研究的所有内核均基于点积或参数规范。 可以通过简单地将每个通道的单个点积相加来计算点积。 通过DFT的线性,这使我们能够对傅立叶域中每个通道的结果求和。 作为一个具体的例子,我们可以将此推理应用于高斯核,从而获得公式30的多通道模拟
在这里插入图片描述
值得强调的是,多个通道的集成不会导致更困难的推理问题-我们在计算内核相关性时仅需对通道进行求和。

7.2线性核

对于线性核κ ( x , x ′ ) = x T x ′ \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right) =\boldsymbol{x}^{\boldsymbol{T}}\boldsymbol{x}'κ(x,x′)=xTx′,上一节中的多通道扩展简单地得出
在这里插入图片描述

我们将其命名为双相关滤波器(DCF)。 该滤波器是线性的,但是在对偶空间α中训练。 我们将在短期内讨论与其他多通道滤波器相比的优势。
三组[31],[32],[33]独立地发现了线性相关滤波器到多个通道的最新扩展。 通过将问题分解为每个DFT频率的线性系统,在Ridge回归的情况下,与非结构化算法相比,它们可以提供更快的训练时间。 Henriques等。 [31]另外将分解推广到其他训练算法。
但是,公式32表明,通过使用线性核对偶运算,我们可以训练具有多个通道的线性分类器,但仅使用逐元素运算。
起初这可能是意料之外的,因为这些工作需要更昂贵的矩阵求逆[31],[32],[33]。
我们指出这一点是唯一可能的,因为我们只考虑了一个基本样本x,因此解决了这一差异。 在这种情况下,与特征或通道数无关,内核矩阵K = X X T \boldsymbol{K}=\boldsymbol{XX}^{\boldsymbol{T}}K=XXT为n×n。
它与基本样本的n个循环移位相关,并且可以由DFT的n个基础对角线化。 由于K是完全对角的,因此我们可以仅使用按元素进行运算。
但是,如果我们考虑两个基本样本,则K变为2n×2n,而n DFT的基础不再足以完全对角化它。 这些不完全对角化(blockdiagonalization)需要更昂贵的操作来处理,这是那些工作中提出的。
使用有趣的对称参数,可以在原始中使用仅基本元素操作进行多个基本样本和单个通道的训练(附录A.6)。 接下来,对非中心协方差矩阵X T X \boldsymbol{X}^{\boldsymbol{T}}\boldsymbol{X}XTX而不是X X T \boldsymbol{XX}^{\boldsymbol{T}}XXT
应用相同的推理。 在这种情况下,我们获得了原始的MOSSE滤波器[9]。
总之,对于快速的逐元素运算,我们可以选择多个通道(在双通道中,获得DCF)或多个基本采样(在基波中,获得MOSSE),但不能同时选择两者。 这对时间紧迫的应用程序(例如跟踪)具有重要影响。 一般情况[31]昂贵得多,并且最适合离线训练应用。

8实验

8.1跟踪管道

我们在Matlab中实现了两个简单的跟踪器,这些跟踪器基于建议的使用高斯内核的核相关滤波器(KCF)和使用线性内核的双相关滤波器(DCF)。 我们不报告多项式内核的结果,因为它们实际上与高斯内核的结果相同,并且需要更多参数。 我们测试了另外两种变体:一种可以直接处理原始像素值,另一种可以处理像元大小为4个像素的HOG描述符,特别是Felzenszwalb的变体[20],[22]。 请注意,在单个通道(原始像素)的极限情况下,我们的线性DCF等效于MOSSE [9],但它的优点是还支持多个通道(例如HOG)。 我们的跟踪器只需要很少的参数,并且在表2中报告了我们为所有视频固定使用的值。
KCF的大部分功能在算法1中以Matlab代码的形式呈现。与本工作[29]的早期版本不同,它准备处理多个通道,将其作为输入数组的第3维。 它实现了3个功能:训练(公式17),检测(公式22)和kernel_correlation(公式31),前两个功能使用了该功能。
跟踪器的管道特意简单,并且不包含用于故障检测或运动建模的任何启发式方法。 在第一帧中,我们在目标的初始位置训练带有图像块的模型。 该块大于目标,以提供一些上下文。 对于每个新帧,我们在前一个位置检测到补丁,然后将目标位置更新为产生最大值的位置。 最后,我们在新位置训练一个新模型,并将获得的α和x值与前一帧的值线性插值,以为跟踪器提供一些存储空间
在这里插入图片描述

8.2评估

我们通过使用包含50个视频序列的最新基准测试对跟踪器进行了测试[11](见图1)。 该数据集收集了以前作品中使用的许多视频,因此我们避免了过小地适应过小子集的危险。
对于性能标准,我们没有选择平均位置误差或在帧上平均的其他度量,因为它们会对丢失的跟踪器施加任意惩罚,后者取决于机会因素(即丢失轨道的位置),因此不会 可比。 边界框重叠是一个类似的替代方法,它的缺点是即使对目标位置进行了完美跟踪,也无法对无法跨比例跟踪的跟踪器进行严重惩罚。
精度曲线[11],[5],[29]是我们选择进行评估的一种越来越流行的替代方法。 如果预测的目标中心在地面真相的距离阈值之内,则可以认为帧已正确跟踪。 精度曲线仅显示在一定距离范围内正确跟踪的帧的百分比。 请注意,通过绘制所有阈值的精度,不需要任何参数。 这使得曲线清晰易懂。 在低阈值下具有较高的精度意味着跟踪器更加准确,而丢失的目标将阻止它在很大的阈值范围内达到理想的精度。 当需要代表性的精度分数时,如先前的工作[11],[5],[29]所做的那样,选择的阈值为20个像素。
在这里插入图片描述

8.3完整数据集上的实验

我们首先总结表1和图4中所有视频的结果。为进行比较,我们还报告了其他几个系统的结果[7],[4],[9],[5], [14],[3],包括一些可用的最具弹性的跟踪器– Struck和TLD。 与我们的简单化实现(算法1)不同,这些跟踪器包含许多工程上的改进。 Struck可用于多种不同的功能以及越来越多的支持向量。 TLD专门针对重新检测,使用了一组具有许多参数的结构规则。
尽管存在这种不对称性,我们的核相关滤波器(KCF)仅通过对原始像素进行操作就已经可以达到竞争性能,如图4所示。在这种情况下,由高斯核引起的丰富隐式特征产生了明显的优势。 提出的双重相关滤波器(DCF)。
我们注意到,具有单通道特征(原始像素)的DCF在理论上等效于MOSSE滤波器[9]。 为了进行直接比较,我们在图4中包括了作者MOSSE跟踪器的结果[9]。两者的性能非常接近,表明它们实现中的任何特定差异似乎都没有太大关系。
但是,我们提出的内核化算法(KCF)确实可以显着提高性能。
用HOG功能替换像素可以使KCF和DCF甚至超过TLD和Struck,幅度较大(图4)。 这表明,与使用类似功能的其他跟踪器相比,实现高性能的最关键因素是有效合并目标环境中成千上万个负样本,而这样做的开销很小。
定时。 如前所述,封闭式解决方案的总体复杂度为O(n log n),因此具有很高的速度(表1)。 跟踪器的速度与被跟踪区域的大小直接相关。 当比较基于相关滤波器的跟踪器时,这是一个重要因素。MOSSE[9]跟踪与目标对象具有相同支持的区域,而我们的实现跟踪的区域大2.5倍(平均116x170)。 减小跟踪区域将使我们能够接近其FPS 615(表1),但是我们发现这会损害性能,尤其是对于内核变体。 表1中的另一个有趣观察结果是,即使我们考虑了计算HOG特征的开销,对每个空间像元进行31个HOG特征操作也可能比对原始像素进行操作稍快。 由于每个4x4像素单元由单个HOG描述符表示,因此较小尺寸的DFT抵消了在特征通道上进行迭代的成本。 利用台式计算机的所有4个核心,KCF / DCF只需不到2分钟的时间即可处理所有50个视频(约29,000帧)。
在这里插入图片描述

8.4具有序列属性的实验

基准数据集[11]中的视频带有属性注释,这些属性描述了跟踪器在每个序列中将面临的挑战-例如,光照变化或遮挡。 这些属性可用于诊断和表征如此庞大的数据集中的跟踪器的行为,而不必分析每个单独的视频。 我们报告了图5中4个属性的结果:非刚性变形,遮挡,视野外目标和背景混乱。
我们的跟踪器的HOG变体在非刚性变形和遮挡方面的鲁棒性不足为奇,因为已知这些特征具有很高的判别力[20]。 但是,仅内核像素上的KCF仍然与Struck和TLD差不多,内核弥补了这些功能的不足。
由于缺乏故障恢复机制,我们实施的系统面临的一个挑战是无法实现的目标。 在这种情况下,TLD的性能优于大多数其他跟踪器,这说明了其对重新检测和故障恢复的关注。 这种工程上的改进可能会使我们的跟踪器受益,但KCF / DCF仍能胜过TLD的事实表明,它们并不是决定性因素。
背景杂乱会严重影响几乎所有的跟踪器(建议的跟踪器除外),并在较小程度上影响Struck。
对于我们的跟踪器变体,这可以通过在跟踪对象周围隐含数千个负样本来解释。 由于在这种情况下,即使是追踪器的原始像素变体也具有非常接近最佳的性能,而TLD,CT,ORIA和MIL却显示出性能下降,因此我们推测这是由于它们的负片采样不足所致。
我们还报告了图7中其他属性的结果。
通常,建议的跟踪器对于7个挑战中的6个最强大,但分辨率较低,这会影响除Struck以外的所有跟踪器。
在这里插入图片描述

9结论和未来工作

在这项工作中,我们证明了可以对自然图像平移进行分析建模,表明在某些条件下,所得数据和核矩阵变得循环。 DFT对角化为创建快速处理翻译的算法提供了一般蓝图。 我们已将此蓝图应用于线性和内核岭回归,从而获得了以数百FPS运行且仅需几行代码即可实现的最新跟踪器。 扩展我们的基本方法似乎对其他问题很有用。 从这项工作的第一个版本开始,循环数据已被成功地用于其他算法[31]和视频事件检索[30]。 进一步工作的一个有趣方向是放宽对周期性边界的假设,这可以提高性能。 从其他具有循环数据的目标函数的研究中,也可能获得许多有用的算法,包括经典滤波器(例如SDF或MACE [25],[26])以及比平方损耗更强健的损耗函数。 我们还希望将该框架推广到其他算子,例如仿射变换或非刚性变形。

附录A

A.1实施细节

如相关滤波器的标准一样,输入块(原始像素或提取的特征通道)由余弦窗口加权,该余弦窗口平滑地消除了由循环假设引起的图像边界处的不连续性[9], [21]。 跟踪区域的大小是目标的2.5倍,以提供一些背景信息和其他负面样本。
回想一下,训练样本由基本样本的移位组成,因此我们必须为y中的每个样本指定回归目标。 回归目标y仅遵循高斯函数,根据空间带宽s,中心函数的目标值为1,对于任何其他偏移,平滑地衰减为0。 高斯目标比二元标签更平滑,并且具有减少傅立叶域中振铃效应的好处[21]。
一个微妙的问题是确定y的哪个元素是居中样本的回归目标,在该样本上我们将使高斯函数居中。 尽管从直观上看,它似乎位于输出平面的中间(图6-a),但事实证明,正确的选择是左上角的元素(图6-b)。解释是,在计算傅立叶域中的两个图像之间的互相关并转换回空间域后,结果的左上角元素对应于零位移[21]。 当然,由于我们总是处理循环信号,因此高斯函数的峰值必须从左上角到其他角回绕,如图6-b所示。 在某些滤波器实现中,将高斯峰放置在回归目标的中间很常见,并且会导致相关输出不必要地移动半个窗口,必须在hoc^2之后进行校正。在这里插入图片描述

另一个常见的错误来源是,快速傅立叶变换的大多数实现都没有计算单一DFT。 这意味着除非通过恒定因子校正输出,否则不会保留信号的L2范数。 有了一些符号的滥用,我们可以说,单一DFT可以计算为
在这里插入图片描述
其中输入x的大小为m×n,对于逆DFT来说,
在这里插入图片描述

A.2定理1的证明

在定理假设κ ( x , x ′ ) = κ ( M x , M x ′ ) \boldsymbol{\kappa }\left( \boldsymbol{x},\boldsymbol{x}' \right) =\boldsymbol{\kappa }\left( \boldsymbol{Mx},\boldsymbol{Mx}' \right)κ(x,x′)=κ(Mx,Mx′)
的情况下,对于任何置换矩阵M,则:
在这里插入图片描述

利用置换矩阵的已知属性,这可以简化为
在这里插入图片描述

由于P的循环特性,它每n次幂重复一次,即P n = P 0 \boldsymbol{P}^{\boldsymbol{n}}=\boldsymbol{P}^0Pn=P0,例如,公式37等价于:
在这里插入图片描述

其中mod是模运算(除以n的余数)。
现在我们使用一个事实,即循环矩阵X = C(x)(公式6)的元素满足

在这里插入图片描述
也就是说,如果矩阵的元素仅取决于(j-i)mod n,则该矩阵是循环的。 通过公式6可以很容易地检查是否满足此条件。事实上,它经常被用作循环矩阵的定义[34]。
因为Kij也依赖于(j − i)mod n,所以我们必须得出结论K也是循环的,从而完成了证明。

A.3带有循环数据的内核岭回归

本节显示了公式17的更详细推导。我们首先在公式Kernel Ridge回归公式16中替换K = C ( k x x ) \boldsymbol{K}=\boldsymbol{C}\left( \boldsymbol{k}^{\boldsymbol{xx}} \right)K=C(kxx)
。 并且对角化
在这里插入图片描述

通过简单的线性代数,以及F的统一性(FF H = I),( F F H = I ) \left( \boldsymbol{FF}^{\boldsymbol{H}}=\boldsymbol{I} \right)(FFH=I)

在这里插入图片描述

这等价于:
在这里插入图片描述
因为对于任何向量F z = z ^ \boldsymbol{Fz}=\boldsymbol{\hat{z}}Fz=z^
,我们都有
在这里插入图片描述

最后,由于对角矩阵和向量的乘积只是其元素乘积,

在这里插入图片描述

A.4快速检测公式的推导

对公式21,我们使用与上一节相同的属性。 我们有
在这里插入图片描述
这等价于:
在这里插入图片描述

复制与上一节相同的最终步骤,
在这里插入图片描述

A.5具有循环数据的线性岭回归

这是第4.4节中步骤的更详细版本。
这与内核情况非常相似。 我们首先替换公式10 岭回归公式中的公式 3。

在这里插入图片描述

通过简单的代数和F的唯一性,我们有:
在这里插入图片描述
这等价于:
在这里插入图片描述
因为对于任何向量F z = z ^ \boldsymbol{Fz}=\boldsymbol{\hat{z}}Fz=z^
在这里插入图片描述

由于对角矩阵和向量的乘积只是其元素乘积,因此我们可以再走一步。
在这里插入图片描述

A.6 MOSSE滤波器

与图12和MOSSE滤波器[9]的区别在于,后者使多个基本样本xi(的循环移位)的误差最小,而公式12为单个基本样本x定义。 这样做是为了使表述清晰,一般情况很容易得出。 还要注意,MOSSE不支持多个通道,这是通过双重公式实现的。
每个基本样本xi的循环移位可以用循环矩阵Xi表示。 然后,替换公式3中的数据矩阵在这里插入图片描述结果:
在这里插入图片描述
通过直接将规则应用于块矩阵的乘积。 考虑括号内的表达式,

在这里插入图片描述
公式 61看起来完全像公式 3,除sum外。 然后按照与第4.4节相同的步骤将其对角线化,并获得滤波器方程,这很简单。

在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值