DSST论文翻译

z-xxx

已于 2022-10-09 20:45:37 修改

阅读量696

点赞数 1

文章标签：计算机视觉目标跟踪 opencv

于 2022-10-07 17:22:34 首次发布

本文链接：https://blog.csdn.net/m0_47960767/article/details/127196191

版权

Accurate Scale Estimation for Robust Visual Tracking

鲁棒视觉跟踪的精确尺度估计

**摘要：**鲁棒尺度估计是视觉目标跟踪中一个具有挑战性的问题。现有的大多数方法都不能处理复杂图像序列中的大规模变化。本文提出了一种新的基于检测跟踪的鲁棒尺度估计方法。该方法通过学习基于比例金字塔的判别相关滤波器工作。我们学习了用于平移和尺度估计的两个独立滤波器，表明与详细的尺度搜索相比提高了性能。我们的尺度估计方法是通用的，因为它可以合并到任何没有固有的尺度估计跟踪方法。

对28个尺度变化显著的基准序列进行了实验。我们的结果表明，与我们的基线相比，提出的方法在中位距离精度方面显著提高了18.8%的性能。最后，将我们的方法与文献中最先进的跟踪器进行定量和定性的比较。在实时运行的情况下，该方法的中位距离精度比现有的最佳跟踪器提高了16.6%。

一、介绍

视觉目标跟踪是计算机视觉领域的一个热门问题。这个问题涉及到在图像序列的每一帧中估计视觉目标的位置。尽管近年来取得了显著的进展，但由于部分遮挡、变形、运动模糊、快速运动、光照变化、背景杂波和尺度变化等因素，该问题仍然很困难。当遇到复杂图像序列的大规模变化时，大多数现有的方法性能较差。在本文中，我们解决了视觉跟踪中具有挑战性的尺度估计问题。

近年来，基于检测的跟踪方法[3,9,11,19]已被证明具有良好的跟踪性能。这些方法通过将目标定位任务作为分类问题来工作。利用目标图像和背景图像的图像补丁在线学习判别分类器获得决策边界。最近，Wu等人[18]对在线视觉跟踪方法进行了综合评估。在他们的评估中，CSK跟踪器[11]显示出具有竞争力的性能，同时拥有最高的速度。给定一个图像补丁，CSK跟踪器通过学习目标外观的核化最小二乘分类器工作。Bolme等人[3]提出的一种方法是通过最小化输出平方和(MOSSE)来寻找自适应相关滤波器。

大多数检测跟踪方法，如CSK和MOSSE，都仅限于估计目标平移。这意味着在具有显著尺度变化的序列中性能较差。另一方面，一些现有的估计尺度变化的方法[14,20]在低帧率下运行，因此在实时应用中不可行。理想的尺度估计方法应该在计算效率高的同时，对尺度变化具有鲁棒性。本文提出了一种有效的鲁棒尺度估计方法。它基于MOSSE跟踪器[3]中使用的判别相关滤波器。所提出的尺度估计方法是通用的，可以被纳入任何跟踪框架。

**贡献：**我们提出了一种在尺度金字塔上训练分类器来估计目标尺度的有效方法。这使得我们可以在找到最优译文后独立地估计目标尺度。我们进一步表明，我们的方法比穷尽尺度空间搜索方法提高了准确性，同时运行在25倍的帧速率。为了验证我们的方法，我们对最近的基准评估[18]中标注了“尺度变化(SV)”的所有28个图像序列进行了广泛的实验。我们将我们的方法与文献中最先进的跟踪器进行比较。尽管它很简单，我们的跟踪器实现了最先进的性能，同时实时操作。图1显示了三个基准序列上与最先进跟踪器的比较。

在这里插入图片描述

**图1:**我们的方法与最先进的跟踪器ASLA [14]， SCM [20]， Struck[9]和LSHT[10]在具有挑战性的情况下的比较，即部分闭塞，平面外旋转和照明变化。示例帧分别来自carScale, David和Skating1序列。与现有方法相比，我们的方法有效地处理了显著的规模变化。

二、学习判别相关滤波器

我们的基线与MOSSE跟踪[3]密切相关。跟踪器学习用于在新帧中定位目标的判别相关滤波器。该方法使用了大量的灰度图像块f1,…,ft的目标外观作为训练样本。这些被标记为所需的相关输出g1,…,gt 来自滤波器。将误差平方和最小化，得到时间步t处的最优相关滤波器ht:
在这里插入图片描述

函数f j， g j和ht的大小都是MxN。在这里插入图片描述表示循环相关。第二个等式源自Parseval的同一性。这里，大写字母表示对应函数的离散傅里叶变换(DFTs)。表示复共轭，乘积是点向的。通过选择，式1最小化了：

在这里插入图片描述

期望的相关输出g j被构造成一个高斯函数，其峰值位于目标中心的f j。实际上，(2)中Ht的分子At和分母Bt分别用目标的新观测的ft进行加权平均更新。

给定新帧中大小为M × N的图像补丁z，计算相关分数为在这里插入图片描述。这里表示逆DFT算子。被估计的新的目标位置在y的最大相关分数处。训练和检测步骤使用快速傅立叶变换(FFT)有效地执行。[3]显示，跟踪器可以达到数百FPS的速度。我们参考[3]了解详细信息和派生信息。

三、我们的方法

这里我们将描述我们的方法。第3.1节介绍了我们如何将标准的鉴别相关过滤器扩展到多维特征。在第3.2和3.3节中，我们描述了我们提出的尺度估计方法。

3.1多维特征的判别相关滤波器

最近，第2节中描述的鉴别相关滤波器已经被扩展到多维特征，用于各种应用，包括视觉跟踪[4,13]，目标检测[8,12]和目标对齐[2]。与[13]相似，我们使用HOG特征作为平移滤波器，并将其与通常的图像强度特征连接起来。然而，任何密集的特征表示都可以被合并。本文提出的方法在搜索空间的维数上也具有通用性。在这项工作中，我们使用一维滤波器仅估计尺度，二维滤波器仅平移和三维滤波器用于详尽的尺度空间的目标定位。

我们考虑信号(例如：图像)的d维特征映射表示。设f是目标的一个矩形补丁，从这个特征图中提取出来。我们表示f的特征维数在这里插入图片描述为。目标是找到一个最佳的相关性滤波器h，每个特征维度包含一个滤波器。这是通过最小化成本函数来实现的:

在这里插入图片描述

其中，g是与训练样本f相关的期望相关输出。参数λ≥0来控制正则化项的影响。注意(3)只考虑一个训练样本，因此在t = 1的情况下推广了(1)。(3)的解为:
在这里插入图片描述

如[3]中所述，正则化参数缓解了f频谱中出现零频率分量的问题，这将导致除零。通过最小化所有训练补丁的输出误差可以获得最优滤波器[2,8]。然而，这需要解决每像素的d × d线性方程组，这对于在线学习应用来说是代价巨大的。为了获得一个鲁棒近似，我们在这里分别更新相关滤波器在这里插入图片描述 (4)的分子和分母为:

在这里插入图片描述

其中η为学习率参数。使用(6)计算特征图矩形区域z的相关分数y。然后通过最大化分数y找到新的目标状态。

在这里插入图片描述

作为基线，我们学习了一个只使用HOG特征进行平移估计的过滤器。为了训练滤波器，我们提取目标patch的特征响应f。然后使用(5)更新过滤器在这里插入图片描述。我们通过提取预测目标位置的特征映射z来估计新帧中的位置。然后使用(6)计算相关分数y。以下小节描述如何在跟踪中使用这些过滤器进行尺度估计。

3.2 详尽尺度空间跟踪

提出了一种基于学习三维尺度空间相关滤波器的平移尺度联合跟踪方法。滤波器尺寸固定为M × N × S，其中M和N为滤波器的高度和宽度，S为尺度数。为了更新滤波器，我们首先在目标周围的矩形区域计算一个特征金字塔。金字塔是这样构建的，目标的大小是M × N在其估计的尺度。然后将训练样本f设置为特征金字塔的一个长方体。长方体的尺寸为M ×N ×S，并以目标的估计位置和尺度为中心。我们使用一个三维高斯函数作为相应的期望相关输出g。最后，使用(5)更新尺度空间跟踪滤波器。

为了在新的帧中定位目标，我们从上面的特征金字塔中提取一个M ×N ×S矩形长方体z。长方体以预测的目标位置和尺度为中心。然后用(6)计算相关分数y。通过在y中找到最大分数得到新的目标位置和尺度。

3.3 快速尺度空间跟踪

将尺度估计合并到跟踪器中需要较高的计算成本。理想情况下，精确的尺度估计方法应该是稳健的，同时计算效率高。为此，我们提出了一种快速的尺度估计方法，通过学习用于翻译和尺度的独立过滤器。这有助于将搜索区域限制在尺度空间的较小部分。此外，我们获得了为每个滤波器独立选择特征表示的自由。

我们通过学习一个单独的一维相关滤波器来增强基线，以估计图像中的目标尺度。更新尺度滤波器的训练示例f是通过以目标为中心的可变patch大小提取特征来计算的。设P × R为当前帧的目标尺寸，S为尺度滤波器的尺寸。对于每个在这里插入图片描述，我们提取一个以目标为中心的大小为的图像patch 。这里，a表示特征层之间的比例因子。将尺度级别为n的训练样本f的值f (n)设为的d维特征描述符。最后，(5)用新的样本f更新尺度滤波器。

在视觉跟踪场景中，两帧之间的尺度差异通常比平移更小。因此，我们首先对给定的新帧应用平移滤波器在这里插入图片描述。然后，在新的目标位置应用尺度滤波器。使用与f相同的过程从这个位置提取一个示例z。通过最大化和z之间的相关输出(6)，得到尺度差。算法1提供了跟踪器的简要轮廓。我们的方法在计算效率高的同时，准确地估计了平移和缩放。

在这里插入图片描述

四、实验

我们首先表明，用HOG特征替换常规强度值显著提高了性能。然后我们比较了我们的快速尺度估计方法和穷尽方法。最后，我们提供了与最先进的跟踪器的定量和定性比较。

4.1 特征和参数

正则化参数设置为λ = 0.01。我们将所需相关输出的标准差设置为平移滤波器的目标大小的1/16，尺度滤波器的1.5。滤波器尺寸M × N设置为初始目标尺寸的两倍。我们使用S = 33个尺度数，尺度因子为a = 1.02。对于我们的方法，学习率设置为η = 0.025。我们对所有序列使用相同的参数值。

我们使用PCA-HOG[7]进行图像表示。在这项工作中使用了[5]提供的实现。为了实现平移滤波器的像素密集特征表示，单元格大小设置为1×1。我们进一步用图像强度(灰度)值增大HOG特征向量。在3.2节描述的详尽尺度空间滤波器中也使用了这种特征表示。对于3.3节中介绍的尺度滤波器，我们首先通过将图像补丁调整为固定大小来计算图像补丁在这里插入图片描述的特征描述符。然后使用4 × 4的单元大小提取PCA HOG特征。固定补丁大小设置为初始目标大小。然而，对于初始面积大于512像素的目标，我们计算一个保持长宽比和512像素面积的固定大小。这确保了特征描述符的最大长度为992。最后，提取的特征总是乘以一个Hann窗口，如[3]中所述。

4.2 实验配置

本文提出的方法是在Matlab中实现的。我们在Intel Xenon 2核2.66 GHz CPU和16 GB RAM上进行了实验。

**数据集：**在最近对跟踪方法[18]的评估中，我们使用了所有28个带有尺度变化属性的序列。序列也提出了挑战性的问题，如照明变化，运动模糊，背景杂波和遮挡。

**评估方法：**通过遵循[18]中使用的协议，我们的方法的性能得到了定量验证。我们提出了使用距离精度(DP)，中心定位误差(CLE)和重叠精度(OP)的结果。第一个指标是CLE为地面真值与目标估计中心位置之间的平均欧氏距离。第二个度量值DP计算为中心定位误差小于某一阈值的序列中的相对帧数。据报道，DP值阈值为20像素[11,18]。第三个度量值OP被定义为边界框重叠超过阈值t∈[0,1]的帧的百分比。我们报告了0.5阈值下的结果，这与PASCAL评价标准相对应。我们在所有28个序列上使用中位数DP、CLE和OP提供结果。我们还报告了跟踪器在所有28个序列中的每秒中位数帧(FPS)速度。

此外，使用精度和成功图[18]给出了结果。平均距离精度在精度图中的阈值范围内绘制。在图例中，我们报告每个方法在20像素处的平均DP评分。在成功图中绘制了平均重叠精度(OP)。曲线下面积(AUC)包含在图例中。精度和成功图提供了所有28个序列的平均结果。最后，我们用现有的跟踪方法对我们的方法进行定性分析。

4.3 实验1：基于HOG的图像表示

基于强度的基线大致对应于[3]中提出的MOSSE跟踪器，但没有任何显式的故障检测组件。基于HOG的图像表示方法在中位距离精度(DP)和重叠精度(OP)方面分别提高了11.6%和6.9%。类似地，基于HOG的跟踪器将中位数CLE从31.2像素减少到15.9像素。总之，我们的结果清楚地表明，基于HOG的图像表示在目标检测中很流行，也提高了视觉跟踪的性能。由于其性能，我们还在我们的尺度估计方法中使用HOG特征来表示图像。

4.4 实验2：鲁棒的尺度估计

表1显示了我们在第3节中讨论的尺度估计方法的结果。我们使用无尺度估计能力的HOG跟踪器作为基线。用简单的详尽尺度估计方法(第3.2节)增加基线可以提高跟踪性能。该方法使基线的中位OP提高了14.4%。同样，穷尽尺度搜索方法提供了87.6%的DP中位数，而使用基线方法获得了74.5%。然而，这种性能的提高是以更高的计算负载为代价的。我们的快速尺度方法(第3.3节)在中值OP上进一步提高了23.3%的跟踪性能，同时比详尽尺度搜索方法快24倍。

在这里插入图片描述

**表1:**我们的快速尺度估计方法与基线和详尽搜索跟踪器的比较。我们的方法显著提高了性能，同时计算效率很高。

4.5 与先进的跟踪器比较

我们将我们的方法与11种最先进的跟踪器进行比较:CT[19]、TLD[15]、DFT[17]、EDFT[6]、ASLA[14]、L1APG[1]、CSK[11]、SCM[20]、LOT[16]、Struck[9]和LSHT[10]，这些跟踪器在文献中显示具有出色的性能。28个基准序列的比较如表2所示。我们在所有序列上使用中位数OP、DP和CLE来表示结果。此外，还提供了中位数FPS的速度比较。

在这里插入图片描述

**表2:**与28个基准序列的最先进跟踪器的比较。我们的方法在重叠精度(OP)(%)、距离精度(DP)(%)和中心定位误差(CLE)(以像素为单位)方面显著优于现有方法。此外，与现有的最佳跟踪器(Struck、ASLA和SCM)相比，我们的方法更快。

在现有的跟踪器中，Struck提供了最好的结果，CLE的中位数为14.3像素。我们的方法通过减少中位CLE 3.4像素来提高性能。同样，Struck和SCM提供的中位数DP分别为76.8%和64.3%。我们的方法通过实现93.3%的中位数DP显著提高了跟踪性能。最后，在重叠精度(OP)方面，ASLA是现有方法中效果最好的，中位OP为69.9%。我们的方法虽然简单，但中位OP比ASLA高出5.6%。值得一提的是，我们的方法比性能最好的比较跟踪器要快得多。我们的方法比Struck快2.5倍以上，比ASLA快25倍，比SCM快250倍。

表3提供了与我们评估中的前5个现有跟踪器的每个视频比较。用重叠精度(OP)来表示每个视频的结果。我们的方法在28个序列中的16个上提供了更好或类似的性能。

在这里插入图片描述