Hierarchical Convolutional Features for Visual Tracking(CF2)论文翻译

最新推荐文章于 2024-05-31 10:05:02 发布

梨落琴川

最新推荐文章于 2024-05-31 10:05:02 发布

阅读量4.6k

点赞数 4

分类专栏：深度学习论文学习笔记文章标签： CNN 相关滤波机器学习深度学习

本文链接：https://blog.csdn.net/susansmile1014/article/details/77550090

版权

摘要

因为变形、快速运动、背景杂乱、遮挡等会引起目标物体的外观模型发生重大变化，因而视觉跟踪便成了一项具有挑战性的工作。在本文中，我们利用已经在目标识别数据库中训练好的深度卷积网络中提取出来的深度特征，来提高我们跟踪的精度和鲁棒性。在卷积神经网络中，最后一个卷积层的输出对目标的语义信息进行编码，并且这种表示对于重大的外观变化具有鲁棒性；然而，这样的表示因为空间分辨率太低而无法对目标进行准确定位。相反，卷积网络中比较靠前的卷积层因为含有更为丰富的空间信息而能够对目标进行准确定位，但是含有的语义信息太少因而不能应对较大的目标外观变化。我们把卷积层的层次结构看作是一个图像金字塔表示的非线性对等物，并且利用这些多层次的抽象化特征进行跟踪。特别是，我们在每一个我们用到的卷积层上，自适应地学习一个相关滤波器并对目标的外观进行编码。我们逐层推断最大相关响应来对目标进行定位。在大规模的基准数据集上，我们做了大量的实验，结果显示我们提出的算法比现有先进的算法更加优秀

一、引言

视觉目标跟踪是计算机视觉众多应用中的一个基本问题。视觉跟踪的一个经典场景就是跟踪一个在初始帧被边界框圈定的未知目标。尽管这些年视觉跟踪已经取得较大的发展，但是由于遮挡、变形、快速运动、光照变化、背景杂乱等原因容易引起较大的外观变化，所以，视觉跟踪仍然是一个挑战性问题。最近，基于卷积神经网络（CNNS）的特征在广泛的视觉识别任务中取得了先进的实验结果。因而，如何最好地利用CNNS丰富的卷积层次特征实现更为鲁棒的跟踪，是一件令人感兴趣的事情。

现有基于深度学习的跟踪器通常会在估计目标位置附近选取训练的正负样本，以便于递增式的学习一个基于CNNS特征的分类器。这样的方法会产生两个问题。第一个问题，沿用最近的目标识别算法，将卷积网络作为一种在线分类器，只是用了最后一个卷积层的输出来表示目标，对于高层次视觉识别问题，这样是非常有效的，因为最后一个卷积层特征跟分类层次语义信息最为密切，最不受干扰变量（例如，类内变化和精确位置）的影响；然而，视觉跟踪的目标是准确定位目标而非推断其语义分类，仅仅使用最后一个卷积层特征并不是目标的最优表示。第二个问题是关于提取训练样本，训练一个鲁棒的分类器需要相当数量的正负样本，这在视觉跟踪中是不可行的；另外，由于采样是在目标周围进行，正负样本具有很高的相关性，我们在确定决策边界时存在模糊性。

在这项工作中，我们通过以下方法处理这两个问题：（i）使用CNNS的分层特征而不仅是最后一个层的特征来表征目标（ii）不需要采样，在每一个CNN层上学习自适应相关滤波器。我们的方法基于这样的观察：尽管最后一个卷积层能更为有效地捕捉语义信息，但是却不能高效捕捉类似于目标位置这样更为精细的空间信息；前边的卷积层正好相反，能准确定位却不能捕捉足够的语义信息如图1.观察表明，我们可以这样推理CNN的多层特征对于视觉跟踪来说非常有用，因为语义信息可以应对重大的外观变化，空间细节能够准确定位目标。我们使用了CNNS最新进展的分层特征和经典计算机视觉问题中的多层次推理方法。例如，从图像金字塔的粗水平计算光学流是有效的，但是要获得精确和详细的流场需要更细的层次。我们通常采用由粗到精的搜索策略来得到最好的结果。考虑到这个联系，我们使用每一个卷积层提取的特征学习一个自适应相关滤波器，融合多层相关相应推断目标位置。我们将所有特征的移位版本作为训练样本，将它们回归到一个很小空间带宽的高斯函数，从而减轻了训练一个二值分类器的采样模糊性。

本文有以下三大贡献：第一，我们提出在视觉跟踪中使用CNNs丰富的多层特征来表示目标，同时使用了语义信息和空间细节来处理重大外观变化和避免漂移；第二，在每一个CNN层上自适应学习相关滤波器，缓解采样模糊，使用由粗到精的多层相关滤波响应推断目标位置；第三，我们在拥有100个挑战性图像序列的大规模基准数据集上做了大量广泛的实验，结果显示我们提出的算法在精确度和鲁棒性上比现有先进跟踪方法表现更加优秀。