Discriminative Scale Space T racking翻译

最新推荐文章于 2024-08-20 19:55:37 发布

奋斗的ran雪

最新推荐文章于 2024-08-20 19:55:37 发布

阅读量574

点赞数

分类专栏：论文学习文章标签：机器学习

本文链接：https://blog.csdn.net/every_step/article/details/114582914

版权

论文学习专栏收录该内容

20 篇文章 4 订阅

订阅专栏

英文全称：尺度估计滤波器算法

见附件

摘要

目标尺度的精确估计是视觉目标跟踪中一个具有挑战性的研究问题。大多数最先进的方法使用详尽的尺度搜索来估计目标的大小。穷尽性搜索策略在计算上是最昂贵的，并且在遇到大规模变化时困难重重。本文研究了基于检测跟踪框架下的精确和鲁棒尺度估计问题。我们提出了一种新的尺度自适应跟踪方法，通过学习独立的判别相关滤波器进行平移和尺度估计。利用在一组不同尺度上采样的目标外观，在线学习显式尺度滤波器。与标准方法相反，我们的方法直接学习由目标尺度的变化引起的外观变化。此外，我们还研究了减少我们方法的计算成本的策略。在OTB和VOT2014数据集上进行广泛的实验。与标准的穷举尺度搜索相比，我们的方法在OTB数据集上的平均重叠精度提高了2.5%。此外我们的方法计算效率提高了50%。我们的方法在OTB上优于19个最先进的跟踪器，在VOT2014上优于37个最先进的跟踪器，在性能上排名第一。

关键字：视觉跟踪，尺度估计，相关滤波器

1.介绍

视觉目标跟踪是计算机视觉领域的一个开放性研究课题，应用于机器人、监视、自动化领域。

在一般的视觉跟踪中，只有目标的初始位置是一种的。接下来的任务是估计目标在整个序列中的轨迹。这个问题中具有挑战性的几个因素：咬合、外观变化、运动模糊、快速运动、比例变化。 --------现有的跟踪方法使用1判别性，2，生成性学习目标的外观模型。然后使用外观模型在新的帧中估计目标状态，包括：水平和垂直位置。目标大小的变化是由于沿摄像机轴的运动或目标外观的变化而发生的。精确估计尺度变化是一个具有挑战性的问题，并且由于遮挡、快速移动和光照变化等其他因素的存在而进一步复杂化。

尺度估计的一个简单方法是穷尽尺度搜索，在多个分辨率下评估外观模型。这种蛮力搜索策略在计算上要求很高。本文研究了精确尺度的自适应视觉跟踪问题，并强调了实时性。

基于判别式相关滤波器DCF的视觉跟踪器有很好的性能。他是通过学习一个用于下一帧定位目标的最佳相关滤波器来工作的。在学习和检测阶段，利用快速傅里叶变化FFT可以获得限制的速度增益。目前大多数采用DCF进行跟踪的方法主要集中在平移估计问题上。

为了将尺度估计整合到基于DCF的跟踪框架中，考虑了两种不同的穷尽尺度搜索策略。1，联合尺度空间滤波器，通过构造一个三维相关滤波器来联合估计平移和尺度。2，多分辨率平移滤波器，在多个分辨率下应用标准的二维平移相关滤波器。

本文提出判别式尺度空间跟踪器DSST，它学习独立的相关滤波器来进行显示转换和尺度估计。尺度滤波器：利用一组不同尺度的目标样本来学习。

给出一个新的帧，1，我们首先使用一个标准的翻译吕伯渠估计目标翻译。2，在目标位置上应用学习尺度滤波器来获得准确的目标尺寸估计。----------与穷载尺度搜索策略不同，本文的方法在缩小搜索空间的同时，明确地学习目标大学变化引起地外观变化。

进一步的研究是在不牺牲稳健型和准确性的前提下，减少我们DSST方法的计算成本，这样我们可以增加跟踪器的目标搜索区域，从而提高鲁棒性-------》产生快速DSST跟踪器fDSST

DSST方法在准确性和速度方面改进了基线DCF穷尽尺度搜索方法，可以合并到没有尺度估计组件的任何跟踪方法中，

DSST准确的估计目标大小，从而显著地提高了跟踪器地鲁棒性和准确性。

2，相关工作

视觉目标跟踪是一个基本的计算机视觉问题。目标是估计目标在图像序列中地轨迹。

视觉跟踪方法的工作原理：根据观测到的图像信息构建目标外观模型。使用的方法：生成式或判别式。

生成外观模型的目的：使用统计模型或模板描述目标外观。

判别方法：采用机器学习技术来区分目标外观和周围背景。使用的学习方法的例子包括支持向量机和增强技术。

Bolme等人通过最小化一组样本灰度斑块上的实际和期望相关输出之间的总平方误差来训练滤波器。通过使用循环相关，作者证明了只是用fft和点运算就可以有效的计算得到的滤波器。DCF公式等价的可以转换为在所涉及的训练样本快的所有循环唯一集合上学习最小二乘回归。----》该公式被用来引入快速核化相关滤波器。

一些著作研究了DCF方法对多维特征的推广--------考虑在给定训练样本集的情况下学习一个精确的多通道滤波器------》这种方法大大增加了计算成本，不能直接适用于在线跟踪问题。多通道滤波器与特征通道的数量呈线性关系。

DCF----在许多不同的具有挑战性的跟踪场景中精确目标定位的能力-----仅限于平移估计（意味着当遇到目标规模的重大变化是，性能很差。）

3多通道鉴别相关滤波器

本文的跟踪方法是基于学习判别相关滤波器DCF---------在给定一组目标外观样本快的情况下，在新帧中定位目标=======等价表示为基于样本目标快的所有循环移位来学习分类器。

DCF方法最近已扩展到多维特征表示，应用与视觉跟踪，对象检测，对象对齐。

1，从目标外观的单个样本f学习多通道相关滤波器。-----------在标准情况下，f对应于以目标为中心的图像补丁。这是用来学习一个用于估计目标的翻译的二维相关滤波器。一般来说，f的定义域的维数是任意的。因此同意的方法可以用于学习一维尺度估计滤波器、二维平移估计滤波器和三维联合尺度和平移估计滤波器。这是通过只适应特征提取步骤为每种情况完成的。

在矩形域中的每个位置n处，目标样本f有一个d维特征向量组成 $\int \left ( n \right )\epsilon R^{d}$ 。在转换的情况下，我们可以在补丁的每个像素位置使用RGB值。然而，一般来说，我们可以考虑任何基于网格的特征表示，我们记特征通道L $\in$ {1，...,d}，目标是学习一个相关滤波器h，每个特征通道由一个滤波器h $^{1}$ 组成。这是通过最小化相关响应L2误差（与期望的相关输出g相比）实现的。

这里，*表示循环相关。第二项是一个权重参数 $\lambda$ 的正则化。所需要的相关输出g通常被选择为具有参数化标准偏差的高斯函数。请注意f，h，g的域都有相同的尺寸和大小。----是一个线性最小二乘问题。

这里的乘除法是逐点进行的。f表示单个训练样本，h表示最有滤波器。大写字母表示相应的傅里叶变换 g表示共轭

为了学习鲁棒相关滤波器，需要考虑n个不同时间实列的样本-----可以通过（1）中的相关误差对所有训练样本f进行平均来实现--------由此产生的线性最小二乘问题可以通过DET进行对角化------最终H可以通过求解n个d*d线性系统得到------n为过滤器中元素的数量------》导致了在线学习任务的计算瓶颈--------》解决的办法：单个训练案例精确解来计算一个鲁棒近似。

这里标量 $\eta$ 是学习速率参数。为了在新的帧t中应用滤波器，从考虑的变换区域中提取样本Zt。在标准平移滤波情况下，Zt对应于预测目标位置为中心的图像补丁。测试样本Zt与训练样本Ft相似，使用相同的特征表示。相关分数的DFT是在傅里叶域中计算的。

这里A和B是在前一帧中更新的过滤器的分子和分母，然后利用逆DFT计算出Zt所反映位置的相关分数。当前目标状态的估计是通过找到最大的相关得分来获得的。

4用于平移和尺度估计的相关滤波器

4.1标准的DCF跟踪器

作为一个基线方法，我们学习了一个用于仅翻译跟踪的二位多通道DCF。训练和检测步骤如第三节所述的那样1提取一个以目标为中心的训练补丁ft，2使用更新翻译过滤器。为了在新的帧t中估计目标位置，首先在之前估计的位置提取样本补丁zt。

4.2多分辨率翻译滤波器

在目标检测中，在不同尺度上检测目标的标准方法是在多个分辨率上应用分类器。---DCF采用的就是这种策略。在检测步骤中，以一个目标位置为中心采样多个不同分辨率的patch，然后使用（4)对每个patch分别进行平移滤波，通过找出所有patch中相关度最高的分辨率（尺度)和位置，得到目标的平移和尺度。

4.3关节尺度空间滤波

整合尺度估计的一个简单策略是构造一个三维尺度空间滤波器。这个三维滤波器联合估计目标的平移和尺度，是通过计算金字塔比例表示的盒型区域的相关得分来实现的。

为了更新联合尺度空间滤波器，我们首先在给定目标位置周边的矩形区域内构造一个特征金字塔。构造特征金字塔，使当前尺度下的目标尺寸对应于空间滤波器尺寸M*N。将训练样本ft设置为以目标位置和尺度为中心，尺寸为M*N*S的矩形长方体。--------s代表尺度维度上的过滤器尺寸，使用（3）对联合尺度空间滤波器进行更新，使用一个三维高斯函数作为期望的相关输出g。

4.4迭代联合尺度空间滤波

如上所述，检测步骤中的特征金字塔是围绕预测的目标位置构建的。这可能导致在测试样品zt与围绕实际目标中心构造的特征金字塔的转换中包含剪切组件。剪切效应是由预测的目标位置误差引起的。通过在平移估计中引入偏差，这显著地影响了联合尺度空间滤波器的性能。

通过迭代跟踪器的检测步骤，可以减小尺度空间剪切畸变的影响。因此，我们也评估了一种迭代联合尺度空间滤波策略。

在给定新帧的情况下，1，我们首先在前一个目标的位置和尺度上应用该滤波器。-----2，然后使用与最大相关分数相对应的位置和尺度来更新目标位置(如4.3节所示)。-----3，然后通过在当前目标估计周围构造特征金字塔来迭代检测步骤。这个过程被执行为最大次数的迭代或直到收敛达到。在大多数情况下，该过程是收敛的，因为随着位置估计的改进，金字塔的剪切变形减小了。然而，这种方法的一个主要缺点是由于迭代检测程序增加了计算时间。

5 我们的方法

第4节中描述的对标准DCF跟踪器的扩展，显著增加了跟踪器的计算成本。

除了准确性和鲁棒性，视觉跟踪器的速度在许多现实应用中是一个关键因素。----------因此，一个理想的跟踪方法应该是准确和鲁棒的，同时在实时运行。基于此，我们提出了一种快速尺度的自适应跟踪方法。我们的尺度估计方法是通用的，可以在任何没有尺度估计组件的跟踪框架中使用。

5.1判别尺度空间跟踪

提出了一种基于学习独立的一维尺度相关滤波器的判别尺度空间跟踪器(DSST)。这个尺度过滤器可以应用于图像位置，以计算尺度维度上的相关分数。这些分数然后被用来估计目标量表。为了构造训练样本，我们使用以目标为中心的可变的patch大小来提取特征。设P×R为当前帧中的目标大小，S为尺度过滤器的大小。对于每个，以目标为中心提取大小为anP × anR的图像补丁。其中，a为特征层间的比例因子。将训练样本，scale level n的值ft,scale(n)设为In的d维特征描述符。构建尺度样本ft,scale的过程如图3b所示。最后，用(3)更新尺度过滤器ht，用新的样本ft，尺度。在这种情况下，我们使用一维高斯函数作为期望的相关输出g。

为了估计目标的翻译量，我们使用第4.1节中描述的标准翻译过滤器。通常情况下，两帧之间的目标尺度差异与平移的差异相比是很小的。因此，我们首先应用平移滤波器ht，转换一个新的帧。然后应用尺度滤波器对新的目标位置进行估计。一个尺度估计测试样本zt,scaleis从这个位置使用相同的程序提取训练样本ft,scale。通过最大化尺度相关得分(4)，我们得到相对于前一帧尺度的相对变化。算法1简要介绍了我们的DSST方法

5.2快速判别尺度空间跟踪

这里我们研究了减少DSST方法的计算成本的策略。减少多通道DCF学习和检测步骤中所需的计算的两种方法，这些方法是:相关分数的子网格插值和使用主成分分析(PCA)的特征维数减少，也被称为离散Karhunen-Loève变换。

5.2.1相关得分的子网格插值

子网格插值允许我们使用较粗的特征网格来训练和检测样本。这通过减少分别用于训练和检测的评估(3)和(4)所需的fft的大小来影响计算成本。我们使用三角多项式[25]的插值。这是特别适合的，因为执行插值所需的相关分数的DFT系数已经在(4)中计算过了。插值分数ˆy塔里是通过零填充Ytin(4)的高频得到的，使其大小等于插值网格的大小。然后通过对填充的Yt进行逆DFT得到插值后的分数

5.2.2降维

DSST的计算开销主要由FFT决定。在我们的方法中，FFT计算的数量与特征维数d呈线性伸缩，因为训练(3)和检测(4)步骤需要每个特征维一个FFT。为了减少所需的FFT计算次数，我们采用了降维策略。类似于Danelljan等人的[2]，我们基于标准的PCA降维方案。然而，由于在这项工作中应用的线性核的简单性，平滑子空间更新方案[2]是不需要的。

为了减少FFT计算的次数，我们更新了一个目标模板ut=(1−η)ut−1+ηft。通过傅里叶变换的线性性，学习滤波器的分子(3a)可以等价地由Al t= GF{ul t}得到。学习到的模板utis用来构造投影矩阵Pt。这个矩阵定义了特征投影到的低维子空间。投影矩阵P是 d × d，其中~ d是压缩特征表示的维度。我们通过最小化目标模板ut的重构误差来获得ptt

这里，索引元组n覆盖模板ut中的所有元素。在标准正交约束PtPT t= i下将式(5)最小化，通过对自相关矩阵进行特征值分解得到解

5.2.3压缩尺度过滤器

所提出的降维技术利用了上述特性，适用于尺度滤波器。为了提高效率，分别基于ut、scale和ft计算了两个投影矩阵put、scale和Pf t,scale。可以在不丢失信息的情况下压缩模板和样本。然后使用这些压缩版本更新过滤器(7)的规模。过滤器(7)规模不是影响降维在这种情况下,因为模板和训练样本可以完全重建ut,规模= (Pu t、规模)t˜ut,规模和英国《金融时报》,规模= (Pf t、规模)t˜英尺,scalerespectively。同样适用于傅里叶系数，Ut和Ft，按比例线性。为了在检测阶段计算尺度相关分数，我们应用(8)，使用压缩测试样本ezt,scale = Pu t−1,scalezt,scale。

为了计算和存储效率的目的，我们不明确地构造自相关矩阵(6)，而是通过ut、scale和ft的qr分解分别获得投影矩阵Pu t、scale和Pf t,scale。这不会影响跟踪输出，因为多通道DCF方法(如第3节所述)对特征表示中的任何标准正交基的变化都是不变的。

5.2.4增强鲁棒性的搜索空间扩展

在跟踪器的平移和尺度滤波中均采用了上述策略，大大降低了计算量。这个增强提供了使用更大目标翻译搜索空间的灵活性。搜索空间的扩展是通过增加翻译过滤器的大小来实现的。注意，这样的扩展显著增加了其他基于DCF的跟踪器的计算时间，增加了执行的fft的大小。通过采用上述策略，充分减少了fft的大小和数量，从而在不牺牲实时性能的情况下增加了滤波器的大小。

筛选器大小的扩展在筛选器中提供了更多的上下文信息。通过使用更大的搜索空间，它还有助于缓解快速运动和遮挡问题。总之，通过结合本节提出的策略，我们的快速DSST (fDSST)方法提高了跟踪器的鲁棒性，同时运行速度是DSST的两倍。

6实验

6.1实现细节

我们设置正则化参数λ = 0.01，学习速率η = 0.025。所需相关输出g的标准偏差在平移尺寸上设置为目标尺寸的1/16。请注意，这组参数用于第4节和第5节中介绍的所有基于dcf的跟踪器，以实现公平比较。除了我们的fDSST之外，我们还使用滤波器的相同空间大小M×N，它被设置为初始目标大小的两倍。由于第5.2节中提出的提高跟踪速度的策略，我们可以在不牺牲实时性能的情况下为fDSST使用更大的滤波器。因此，对于fDSST，我们将转换滤波器的大小设置为初始目标大小的三倍。

对于联合尺度空间滤波器(第4.3节和4.4节)和我们的DSST(第5.1节)，我们使用S = 33个尺度数。对于fDSST(第5.2节)，我们使用所描述的方法将尺度相关输出从S = 17到ˆS = 33尺度插值。联合和歧视的方法都使用一个比例因子= 1.02,和标准偏差的规模尺寸所需的相关输出g将1/16乘以数量的尺度的多分辨率转换过滤器(4.2节),我们观察到设置的尺度或比例因子类似于其他尺度自适应方法(例如S = 33和/或= 1.02)给差表现在我们的实验。因此，对于这种方法，我们使用了S = 5的尺度和a = 1.005的尺度因子，这是我们实验中最好的设置。

我们使用PCA-HOG[24]进行图像表示，实现由[26]提供。第4节中的所有跟踪器和我们的DSST中的转换滤波器都使用了相同的像素密集特征表示。该特征是通过1 × 1像素细胞计算的HOG与图像强度(灰度)值的增强得到的。为了节省计算量，我们在fDSST中为翻译过滤器使用了一个较粗的特征网格。为了获得像素密集的相关分数，我们应用5.2节中描述的插值技术。特征向量是使用带有4×4 cells的HOG构造的。该HOG向量用对应单元的平均灰度值进行增宽。灰度特征总是归一化到范围[−1 /2,1 /2]。

对于我们的DSST和fDSST中的尺度滤波器，我们计算图像patch的特征描述符，首先将patch的大小重新调整到一个固定的大小。然后使用大小为4 × 4的细胞提取HOG特征。固定的补丁大小设置为初始目标大小。然而，对于初始面积大于512像素的目标，我们计算一个保留长宽比的固定大小和512像素的面积。确保最大特征描述符长度为992。对于所有的滤波器(平移、缩放和联合)，提取样本中的每个特征通道总是乘以一个Hann窗口，如[7]所述。

fDSST应用5.2.2节中描述的PCA来降低翻译滤波器的维数。在我们的实验中，32维的HOG和强度组合被减少到18维。对于尺度滤波器，我们采用第5.2.3节中提出的修改后的约简方案。该方法将尺度特征的维数由d≈1000降为S = 17维。

6.2实验装置

我们的方法在Matlab中实现。所有实验都在Intel Xeon 2核2.66 GHz CPU上进行，内存为16gb。对于第4节和第5节中介绍的跟踪方法，所有实验和视频使用相同的参数设置。我们的方法根据[10]中描述的评估协议，在在线跟踪基准(OTB)数据集上进行定量评估。该数据集包含50个具有挑战性的图像序列。我们也在VOT 2014数据集[8]上评估我们的方法。

OTB数据集上的跟踪结果使用三个标准评价指标报告，即重叠精度(OP)、距离精度(DP)和跟踪速度帧每秒(FPS)。OP得分计算为视频中相交并与地面真值重叠超过某一阈值的帧的百分比。在表中，我们报告了阈值为0.5的OP，这符合PASCAL评价标准。DP评分定义为视频中跟踪输出与地面真质心之间的欧氏距离小于阈值的帧的百分比。在这个作品[1]，[10]中使用了一个20像素的阈值。

我们还提供了OTB数据集上结果的成功图。在成功图中，所有视频的平均OP是根据重叠阈值的范围绘制的[0,1]。在图例中，我们报告了每个跟踪器的曲线下面积(AUC)分数。

6.3实验一:基于dcf的尺度估计

6.4实验二:快速判别尺度空间跟踪器

除了提出的提高跟踪速度的策略外，fDSST还采用了更大的目标搜索空间来提高鲁棒性。

如5.2.2节所述，我们在fDSST框架中采用了降维方案。我们分析了改变翻译滤波器子空间维数对OTB数据集的影响。图5显示了在AUC中对该参数的不同选择的跟踪性能。我们的fDSST的性能在维数从32减少到6时基本保持一致。我们的结果表明，使用我们的框架可以显著降低特征维数，同时保持跟踪性能。为了获得一致和稳定的结果，我们将所有实验的PCA维数设置为18。

6.5实验3:最先进的比较