TRACA:《Context-aware Deep Feature Compression for High-speed Visual Tracking》论文笔记

最新推荐文章于 2021-01-30 16:20:25 发布

牛牛阳

最新推荐文章于 2021-01-30 16:20:25 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/qq_34135560/article/details/83755395

版权

摘要

我们提出了一种新的基于上下文感知相关滤波器的跟踪框架，以实现了一个实时跟踪器，同时具备高计算速度和最先进的性能。高计算速度的主要贡献在于所提出的深度特征压缩，其通过利用多个expert auto-encoder的上下文感知方案来实现;我们框架中的上下文是指根据外观模式对跟踪目标的粗略分类。在预训练阶段，每个类别训练一个expert auto-encoder。在跟踪阶段，为给定目标选择最佳expert auto-encoder，并且仅使用该expert auto-encoder。为了通过压缩特征映射实现高跟踪性能，我们引入了外部去噪处理和新的正交性损失项orthogonality loss，用于expert auto-encoder的预训练和微调。我们通过大量实验验证了所提出的上下文感知框架，其中我们的方法实现了与最先进的跟踪器相当的性能，这些跟踪器无法实时运行，我们的方法可以以超过100 fps的极快速度运行。

1.介绍

随着深度学习研究的进展，视觉跟踪器的性能得到了极大的提高。最近，出现了两种不同的基于深度学习的跟踪方法。第一组由在线跟踪器组成，这些跟踪器依赖于网络连续的微调来学习目标的变化外观[24,29,34,35,39]。虽然这些跟踪器具有高精度和鲁棒性，但它们的计算速度不足以满足在线跟踪的实时要求。第二组由基于相关滤波器的跟踪器组成，利用原始深度卷积特[6,7,10,21,26]。但是，这些特征旨在表示大型数据集，如ImageNet [27]，中包含的一般对象，因此具有高维度。相关滤波器的计算时间随着特征维度的增加而增加，第二组内的跟踪器也不满足在线跟踪的实时要求。

在这项工作中，我们提出了一种基于相关滤波器的跟踪器，它使用原始深度特征的上下文感知压缩，这减少了计算时间，从而提高了速度。这是通过以下观察来推动的：较低维度的特征图可以充分地表示单个目标对象，这是从覆盖许多对象类别的大数据集的分类和检测任务中观察到的。使用自动编码器[11,23,31,38]将高维特征压缩成低维特征图。更具体地说，我们采用多个自动编码器，每个自动编码器专门用于特定类别的对象;这些被称为expert auto-encoder。我们引入了一种无监督的方法，通过根据上下文信息聚类训练样本来找到类别，然后每个群集训练一个expert auto-encoder。在视觉跟踪期间，特定的目标根据上下文感知网络选择一个最合适的expert auto-encoder。根据一个考虑到相关滤波器的相关性的新颖的损失函数微调选择的expert auto-encoder，之后得到压缩特征图。压缩特征图减少了冗余和减轻了稀疏性，这提高了跟踪框架的准确性和计算效率。为了跟踪目标，将相关滤波器应用于压缩特征图。我们通过一系列自我比较来验证所提出的框架，并表明它在使用原始深度特征方面优于其他跟踪器，而在速度超过100 fps（参见图1）。、

2.相关工作

基于在线深度学习的跟踪器：最近基于在线深度学习的跟踪器[24,29,34,35,39]已经超越以前基于低级特征的跟踪器。王等人 [34]提出了一个同时利用浅层和深层卷积特征的框架，分别考虑目标的详细和上下文信息。Nam和Han [24]引入了一种新颖的训练方法，通过将分类层附加到在线更新的卷积神经网络来避免过度拟合。Tao等人[29]利用暹罗网络来估计目标的先前出现与当前候选区域之间的相似性。Yun等 [39]提出了一种新的跟踪方法，该方法使用动作决策网络，该网络可以通过具有弱标记数据集的强化学习方法进行训练。然而，基于在线深度学习的跟踪器需要频繁地对网络进行微调，这很慢并且禁止实时跟踪。David等 [15]和Bertinetto等 [1]提出了预先训练好的网络，无需在线微调即可快速跟踪目标，但这些跟踪器的性能低于最先进的跟踪器。

基于相关滤波器的跟踪器：基于相关滤波器的视觉跟踪方法由于其快速的计算速度而变得越来越流行[2,4,5,8,16,19,22]。Henriques[16]通过将相关滤波器扩展到多通道输入和基于内核的训练来改善跟踪性能。Danelljan等人。 [8]开发了一种新的相关滤波器，可以检测目标的尺度变化。Ma等人 [22]和Hong等人[19]集成相关滤波器与额外的长期记忆系统。Cui等人[5]提出了一种具有注意机制的跟踪器，该机制利用了先前的目标外观和动态。

基于相关滤波器的跟踪器当使用深度卷积特征时显示出最先进的性能[6,7,10,26]。Danelljan等人。 [7]扩展了正则化相关滤波器[9]以使用深度卷积特征。Danelljan等人还提出了一种新颖的相关滤波器，以找到连续域中的目标位置，以结合各种分辨率的特征。 Ma等人。 [26]通过融合从各种分辨率的卷积特征获得的响应图来估计目标位置。然而，即使每个相关滤波器工作得很快，原始深度卷积特征也有太多的通道要实时处理。Danelljan等人 [6]通过提出考虑原始深度特征的线性组合，迈出了减少特征空间的第一步。然而该方法仍然不能实时运行，并且深度特征冗余未被完全抑制。

Multiple-context deep learning frameworks:我们提出的跟踪框架得益于观察到可以使用上下文信息来训练多个专用深度网络来改善深度网络的性能。实际上，有几种工作利用这种方案。李等人 [20]提出了一种级联框架，通过多个神经网络检测面部，这些神经网络由根据检测难度的程度划分的样本进行训练。Vu等 [32]综合了两个神经网络的检测结果，一个专门研究局部信息，另一个专门研究全局信息。专门研究局部和全局信息的神经网络也被用于显着图估计任务[33,42]。在人群密度估计中，许多作品[25,28,41]通过使用具有不同感受野的多个深度网络来覆盖不同尺度的人群，从而提高了他们的表现。

3.方法

基于上下文信息深度特征压缩与多个自动编码器（TRACA）的TRAcker提议由多个expert auto-encoder，上下文感知网络和相关滤波器组成，如图2所示。expert auto-encoder可以强大地压缩VGG-Net的原始深度卷积特征[3]。它们中的每一个都根据不同的上下文进行训练，从而执行依赖于上下文的压缩（参见第3.1节）。我们建议使用上下文感知网络来选择最适合特定跟踪目标的expert auto-encoder，并且在线跟踪期间仅运行此自动编码器（参见第3.2节）。在最初使所选择的expert auto-encoder适用于跟踪特定目标之后，其压缩特征图被用作在线跟踪目标的相关滤波器的输入。我们在第3.3节中介绍相关滤波器的一般概念，然后详细介绍跟踪过程包括第3.4节中的初始调整和在线跟踪。

图2.提出的算法方案。专家自动编码器由上下文感知网络选择，并由初始帧（I（1））处的ROI部分微调一次。对于以下帧，我们首先提取以前一目标位置为中心的ROI patch（I（t））。然后，通过VGG-Net获得原始深度卷积特征（X），并由微调专家自动编码器压缩。压缩特征（Z 0）用作相关滤波器的特征图，目标的位置由滤波器响应的峰值位置确定。在每帧之后，通过新发现的目标的压缩特征在线更新相关滤波器

3.1. Expert Auto-encoders

结构：自动编码器已经证明适用于无监督学习的特征[17,18,31]。它们提供了一种学习输入的紧凑表示的方法，同时保留最重要的信息以在紧凑的表示下恢复输入。在本文中，我们建议使用一组相同结构的N e Auto-encoders，每个编码器覆盖不同的上下文。要压缩的输入是从VGG-Net中的一个卷积层获得的原始深度卷积特征图[3]。为了实现高压缩比，我们堆叠N 1个编码层，后面跟着自动编码器中的N 1个解码层。第l层编码层f-l是一个卷基层， f -l : R w×h×c l → R w×h×c l+1，从而减少了通道数，保持了特征图的大小。f-l的输出作为为fl + 1的输入，使得通道数c随着特征图通过编码层而减小。更具体地说，在我们提出的框架中，一个编码层将通道数减少了一半，i.e. c l+1 = c l /2 for l ∈ {1, · · · , N l }。在第(N l − k + 1)解码层，g-k使用与f-l相反的方式解码，g k : R w×h×c k+1 → R w×h×c k 扩展输入的通道数从c_k+1 到c_k,在解码器的最后一层回复X的原始通道数到C1.于是自动编码器可以表示成AE(X) ≡ g 1 (· · · (g N l (f N l (· · · (f 1 (X))))) ∈ R w×h×c 1,对于原始卷积特征图X∈Rw×h×c 1。自动编码器中的压缩特征映射定义为Z≡fN l（···（f 1（X）））∈Rw×h×c Nl +1。所有卷积层之后是ReLU激活函数，其卷积滤波器的大小设置为3×3。

预训练expert auto-encoders的预训练阶段分为三个部分，每个部分都有不同的用途。首先，我们使用所有训练样本训练 auto-encoders AE o，以找到与上下文无关的初始压缩特征图。然后，我们对AE o得到的初始压缩特征图执行上下文聚类，以找到N e个依赖于上下文的集合。最后，这些集合被用于训练expert auto-encoders，利用其中的一个集合初始化expert auto-encoders。

使用基本自动编码器的目的有两个：使用与上下文无关的压缩特征图来聚类训练样本;并找到良好的初始权重参数，expert auto-encoders可以从中进行微调。基本自动编码器由原始卷积特征图{X j} m j = 1训练，batch大小为m。X j来自VGG-Net [3]卷积层的输出，输入图像为来自诸如ImageNet的大图像数据库[27]的随机选择的训练图像。

为了使基本自动编码器对外观变化和遮挡更加鲁棒，我们使用两个去噪标准来帮助捕获输入分布中的不同结构（如图3所示）。第一个去噪准则是一个通道破坏过程，其中随机选择固定数量的特征通道，并将这些通道的值设置为0（而其他通道保持不变），这类似于去噪自动编码器的破坏过程。因此，移除了这些通道的所有信息，并且训练自动编码器以恢复该信息。第二个标准是交换过程，其中卷积特征的一些空间特征向量是随机互换的。由于特征向量的感受域覆盖图像内的不同区域，因此交换特征向量类似于在输入图像内交换区域。因此，交换背景区域和目标区域的特征向量起到了类似遮挡目标的效果。我们记{ X̌ j } m
j=1是经过两步去噪之后的批次。然后我们可以通过最小化原始的特征图和输入去噪特征图自动编码生成的特征图的距离，来训练基础的自动编码器。

然而，当我们只考虑基本自动编码器的输入和最终输出之间的距离时，我们经常观察到过度拟合问题和不稳定的训练收敛。为了解决这个问题，我们根据多级距离设计了一个新的损失，这个损失由部分自动编码器的输入和输出的距离组成。部分自动编码器{AE i (X)} Ni=1 仅包含其原始自动编码器AE（X）的一部分编码和解码层，而输入和输出大小与原始自动编码器的大小一样，i.e. AE 1 (X) = g 1 (f 1 (X)),AE 2 (X) = g 1 (g 2 (f 2 (f 1 (X)))), · · · when AE(X) =g 1 (· · · (g N l (f N l (· · · (f 1 (X)))))).因此，基于多级距离的损失可以描述为

其中AE i o（X）是AE o（X）的第i个部分自动编码器，并且m表示批量大小。

然后，我们根据由基本自动编码器压缩的各个样本的特征图，对训练样本{I j} Nj = 1进行聚类，其中N表示训练样本的总数。为了避免由于聚类得到簇太小而导致expert auto-encoders过度拟合，我们引入了两步聚类算法，避免了小簇。

在第一步中，我们找到2N e样本，这些样本是从基本自动编码器压缩的特征图中随机选择的（请注意，这是所需群集量的两倍，N e为指定的聚类个数）。我们重复1000次随机选择，找到其中欧几里德距离最大的样本作为初始质心。然后，使用k = 2N e，对所有样本的压缩特征图像使用K-means进行聚类。第二步，我们在得到的2NE个聚类中心，去除其中的NE个小的聚类中心。然后在使用这些聚类中心聚类，这样就保证了每个类都有足够多的样本，防止过拟合。我们将I j的聚类索引表示为dj∈{1，...，N e}。

第d个expert auto-encoders AE-d是有基本的自动编码器在第d簇上微调后得到的。训练过程（包括去噪标准）与训练样本中的基本自动编码器不同。

3.2. Context-aware Network

结构：上下文感知网络选择在上下文中最适合给定跟踪目标的expert auto-encoders，我们采用预先训练的VGG-M模型[3]用于上下文感知网络，因为它包含来自ImageNet预训练的大量语义信息[27]。输入是一张224*224的RGB图片，上下文唤醒网络，先是有三个卷基层组成{conv1,conv2,conv3}，后面跟了3个全连接层{fc4,fc5,fc6}，其中{conv1,conv2,conv3,fc1}与VGG-M中相对应的层相同。fc5和fc6的参数以均值为０的高斯分布随机初始化。fc５之后是ＲＥＬＵ,有１０２４个输出节点.最后，fc6具有N e个输出节点并且与softmax层组合以估计每个expert auto-encoders适合于跟踪目标的概率。

预训练：上下文感知网络将训练样本I j作为输入，并输出属于簇索引d j的该样本的估计概率。它通过批量{I j，d j} mj = 1的图像/聚类索引对进行训练，其中m 0是上下文感知网络的小批量大小。通过预训练，调整｛conv1,conv2,conv3,fc4｝的参数，训练｛fc5,fc6｝的权重，通过最小化多类损失函数Ｌ-pr使用随机梯度下降。

Ｈ表示交叉熵损失，h(Ij)是上下文唤醒网络h，预测的Ｉｊ属于的簇的索引。

3.3. Correlation Filter

结构：在详细介绍TRACA的跟踪过程之前，我们将简要介绍使用单通道特征映射的传统相关滤波器的功能。基于傅立叶域[？]中的循环矩阵的性质，可以快速训练相关滤波器，这导致在低计算负荷下的高性能跟踪器[16]。给定矢量化单通道训练特征图z∈Rwh×1，从2-D高斯窗口获得矢量化目标响应图y，其大小为w×h和如[16]中的方差σy2，矢量化相关滤波器w可以通过以下方式估算：

其中ŷ和ẑ分别代表y和z的傅里叶变换矢量，ẑ∗是ｚ的共轭向量，

代表逐元素相乘。F −1代表代表逆傅里叶变换函数，λ是预定义的正则化因子。对于矢量化单通道测试的特征图z0∈wh×1R，矢量化响应图r可以通过以下方式获得：

然后，在从r重建2-D响应图R∈Rw×h之后，从R的最大峰值位置找到目标位置。

3.4. Tracking Process

为了跟踪场景中的目标，我们依赖于基于相关滤波器的算法，该算法使用由上下文感知网络选择expert auto-encoders的压缩特征图。我们在3.4.1节中描述了所选expert auto-encoders的初始适配，然后在Sec3.4.2中介绍了基于相关滤波器的跟踪算法。

3.4.1Initial Adaptation Process

初始适应过程包含以下部分：

我们首先从初始帧提取包括目标的感兴趣区域（ROI），并且由上下文感知网络选择适合于目标的expert auto-encoders。然后，使用从ROI增强的训练样本的原始卷积特征图来微调所选择的expert auto-encoders。当我们从微调expert auto-encoders获得压缩特征图时，它的一些通道代表背景对象而不是目标。因此，我们引入了一种算法来查找和删除响应背景对象的通道。

感兴趣区域提取：ROI以目标的初始边界框为中心，比目标的大小大2.5倍，覆盖附近区域。然后，我们将宽度W和高度H的ROI调整为224×224，以匹配VGG-Net的预期输入大小。这使ＲＯＩ区域变成了在ＲＧＢ颜色空间上的Ｉ (1) ∈ R 224×224×3。对于灰度图像，灰度值被复制到三个通道上，得到Ｉ（１）。使用上下文感知网络h根据初始目标的上下文信息选择用于跟踪场景的最佳expert auto-encoders，并且我们可以将该自动编码器表示为AE h（I）。

初始样本增强:即使我们使用前面描述的两个去噪标准，我们发现expert auto-encoders的压缩特征图也存在使目标变得模糊或被翻转的问题。因此，在微调所选expert auto-encoders之前，我们以多种方式增强I（1）。为了解决模糊问题，通过用具有方差{0.5,1.0,1.5,2.0}的高斯滤波器对I（1）进行滤波来获得四个增强图像;分别通过围绕垂直轴和水平轴翻转I（1）来获得另外两个增强图像。然后，从增强的（1）样本中提取的原始卷积特征图可以表示成

微调： 所选自动编码器的微调与expert auto-encoders的预训练过程不同。由于缺乏训练样本，优化很少在应用去噪标准时收敛。相反，我们使用相关滤波器正交性损失L ad，其考虑从expert auto-encoders的压缩特征图估计的相关滤波器的正交性，其中L定义为：

其中

由方程（3）估计的矢量化相关滤波器，其使用来自所选expert auto-encoders的压缩特征映射（1）fi（···（f 1（X j）））的矢量化第k个通道。相关滤波器正交性损失允许增加相关滤波器之间的相互作用，如从压缩特征图的不同信道估计。通过使用随机梯度下降最小化L ad的区别在补充材料的附录A中描述。

背景频道删除：压缩特征映射Z∀可以从微调expert auto-encoders获得。然后，我们删除Z∀内的通道，这些通道在目标边界框之外有大的响应。通过估计通道中前景和背景特征响应的比率来找到这些通道。首先，我们估计通道k的特征响应的 channel-wise比率为

是特征图第K个通道的特征图，是特征图第K个通道将bounding box之外的区域设置为0得到的。然后，在按照ratio-k以降序对所有信道进行排序之后，仅将压缩特征映射的前N c个信道用作相关滤波器的输入。我们将得到的特征图表示为Z∈RS×S×N c，其中S是特征尺寸。

3.4.2Online Tracking Sequence

相关滤波器估算和更新：我们首先使用与初始适应中相同的方法获得当前帧t的调整后的ROI，即，调整后的ROI以目标的中心为中心，其大小是目标大小的2.5倍并且调整为224×224。在将调整后的ROI馈送到VGG-Net之后，得到原始深度卷及特征，通过将VGG-Net的原始深度卷积特征图输入到自适应expert auto-encoders中，我们获得压缩特征映射。

之后我们使用等式3，我们估计独立的相关滤波器的参数，根据每个特征图的第K个通道.是特征图的第K个通道。参照【16】的方法，我们通过将每个与相同大小的余弦窗口相乘来抑制背景区域。对于第一帧，我们可以根据使用方程（3）估计相关滤波器

对于之后的帧（t> 1），相关过滤器更新如下：

其中γ是插值因子。

跟踪：在估计相关滤波器之后，我需要寻找t帧物体的位置。由于我们假设接近前一帧中的目标位置，我们从与前一帧的相关滤波器估计的ROI相同的位置提取跟踪ROI。这样我们就可以得到由适应的expert auto-encoder生成的特征压缩图用于追踪，把和用于等式（4），得到通道处理过的相应图（我们以与相关滤波器估计相同的方式应用余弦窗的乘法）。

我们需要将组合成综合相应图。我们使用加权平均方案，其中我们使用验证分数作为权重因子。

是一个S*S的高斯窗口，方差以的峰值为中心。然后，综合响应图计算如下：

跟[5]一样，我们通过在峰值位置附近内插响应值来找到子像素目标位置。最终目标的位置由计算：

尺度变换：为了处理目标的比例变化，我们提取了两个额外的ROI补丁，这些补丁是从先前的ROI补丁大小缩放的，在跟踪序列中分别具有缩放因子1.015和1.015 -1。选择新的目标比例作为响应图（来自缩放的ROI）的相应最大值最大的比例。

完全遮挡处理：为了处理完全遮挡，采用了重新检测算法。总体思路是引入所谓的重新检测相关滤波器，该滤波器未被更新并且在检测到遮挡时应用于目标的位置。当如上所述检测到最大（t）响应值Rmax≡max（R（t））的突然下降时，假设完全遮挡。如果满足该条件，则将时间（t-1）处的相关滤波器用作重新检测相关滤波器。在下一个N帧期间，如果重新检测滤波器的响应图的最大值大于由正常相关滤波器获得的响应图的最大值，则使用由重新检测相关滤波器确定的目标位置。

4.实验结果

4.1. Implementation：

将VGG-M [3]的第二卷积层（conv2）之后的特征响应作为原始卷积特征输入给予自动编码器。expert auto-encoders的数量设置为N e = 10，并且它们的深度为N l = 2。所有自动编码器的 mini-batch设置为10.基础自动编码器的学习率设置为10（-10），expert auto-encoders 的学习率设置为10（-9）。基础自动编码器迭代10次，expert auto-encoders 迭代30次。两个外在去噪过程的比例。分别设定为10％。对于上下文唤醒网络，mini-batch设置为100，学习率设置为0.01.正交损失。并且在去除背景信道之后减小的信道尺寸是N c = 25。相关滤波器的参数。完全遮挡处理的参数λre和N re使用具有遮挡的场景通过实验确定为0.7和50。

i7-2700K CPU @ 3.50GHz, 16GB RAM, and an NVIDIA GTX1080 GPU.101.3 FPS in the CVPR2013。

4.2. Dataset

自动编码器和上下文唤醒网络预训练用的VOC2012，CVPR2013 [36] (51targets, 50 videos) and TPAMI2015 [37] (100 targets, 98
videos)

4.3. Evaluation Measure

作为性能测量，我们使用[36]中提出的单程评估（OPE）的平均精度曲线。通过平均所有序列的精确度曲线来估计平均精确度曲线，其使用两个来源获得：位置误差阈值和重叠阈值。作为跟踪器的代表性分数，使用当位置误差阈值等于20个像素时的平均精度和成功曲线的曲线下面积。

牛牛阳

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
TRACA:《Context-aware Deep Feature Compression for High-speed Visual Tracking》论文笔记

摘要我们提出了一种新的基于上下文感知相关滤波器的跟踪框架，以实现了一个实时跟踪器，同时具备高计算速度和最先进的性能。高计算速度的主要贡献在于所提出的深度特征压缩，其通过利用多个expert auto-encoder的上下文感知方案来实现;我们框架中的上下文是指根据外观模式对跟踪目标的粗略分类。在预训练阶段，每个类别训练一个expert auto-encoder。在跟踪阶段，为给定目标选择...
复制链接

扫一扫