用于视觉跟踪的多域卷积神经网络学习算法
目录
摘要
我们提出了一种新的基于判别训练卷积神经网络(CNN)表示的视觉跟踪算法。我们的算法使用一大组跟踪地面事实的视频对CNN进行预训练,以获得通用的目标表示。我们的网络由共享层和域特定层的多个分支组成,其中域对应于单独的训练序列,每个分支负责对每个域中的目标进行二进制分类。我们针对每个域迭代地训练网络,以获得共享层中的通用目标表示。在跟踪新序列中的目标时,我们通过将预先训练的CNN中的共享层与在线更新的新的二值分类层相结合来构建新的网络。通过评估在先前目标状态周围随机采样的候选窗口来执行在线跟踪。在现有的跟踪基准测试中,与最先进的方法相比,所提出的算法表现出了优异的性能。
1.引言
卷积神经网络(CNNs)最近已被应用于各种计算机视觉任务,例如图像分类[27,5,34]、语义分割[30]、对象检测[13]和许多其他任务[37,36]。CNN之所以取得如此巨大的成功,很大程度上归功于它在表示视觉数据方面的出色表现。然而,视觉跟踪受到这些流行趋势的影响较小,因为很难收集用于视频处理应用的大量训练数据,并且还没有专门用于视觉跟踪的训练算法,而基于低级手工特征的方法在实践中仍然工作良好[18,6,21,42]。最近的几种跟踪算法[20,39]已经通过在诸如ImageNet[33]的大规模分类数据集上传输预先训练的CNN来解决数据不足的问题。虽然这些方法可能足以获得通用的特征表示,但由于分类和跟踪问题之间的根本不一致,即预测对象类别标签与定位任意类别的目标,其在跟踪方面的有效性是有限的。
为了充分发挥CNN在视觉跟踪中的表征能力,人们希望在专门用于视觉跟踪的大规模数据上对其进行训练,这些数据涵盖了目标和背景组合中的各种变化。然而,学习基于具有完全不同特征的视频序列的统一表示确实是具有挑战性的。注意,各个序列涉及其类别标签、运动模式和外观不同的不同类型的目标,并且跟踪算法遭受序列特定的挑战,包括遮挡、变形、照明条件改变、运动模糊等。训练CNN甚至更加困难,因为相同类型的对象可以被认为是序列中的目标而被认为是另一个序列中的背景对象。由于序列之间的差异和不一致性,我们认为基于标准分类任务的普通学习方法是不合适的,应该结合另一种捕获序列无关信息的方法,以便更好地表示跟踪。
基于这一事实,我们提出了一种新的CNN结构,称为多域网络(MDNet),用于从多个标注视频序列中学习目标的共享表示以进行跟踪,其中每个视频被视为一个单独的域。该网络在网络末端具有单独的领域特定层分支,用于二进制分类,并共享从前面层中的所有序列捕获的公共信息,用于通用表示学习。MDNet中的每个域分别进行迭代训练,而共享层在每次迭代中更新。通过使用该策略,我们将独立于领域的信息从特定领域信息中分离出来,并学习用于视觉跟踪的通用特征表示。我们架构的另一个有趣的方面是,与用于分类任务的网络(如AlexNet[27]和VGG Net[5,34])相比,我们设计的CNN只有少量的层。
我们还提出了一个基于MDNet学习的表示法的有效在线跟踪框架。当给定一个测试序列,去除训练阶段使用的所有二类分类层的现有分支,并构造一个新的单个分支来计算测试序列中的目标分数。然后,在跟踪期间在线微调新分类层和共享层内的完全连接的层以适应新域。在线更新是为了分别对目标的长期外观变化和短期外观变化进行建模,以实现鲁棒性和自适应性,并在学习过程中引入了一种有效和高效的硬否定挖掘技术。
该算法由多领域表示学习和在线视觉跟踪两部分组成。我们工作的主要贡献概括如下:
- 我们提出了一种基于CNN的多域学习框架,该框架将域独立信息与域特定信息分开,以有效捕获共享表示。
- 我们的框架被成功地应用于视觉跟踪,通过多域学习预先训练的CNN在新序列的背景下在线更新,以自适应地学习特定领域的信息。
- 在两个公共基准测试中:目标跟踪基准[40]和VOT2014[25]中,我们的广泛实验证明了我们的跟踪算法相对于最先进的技术具有出色的性能。
论文的其余部分组织如下。我们首先回顾了第二节中的相关工作,并在第三节中讨论了我们的多域视觉跟踪学习方法。第四节介绍了我们的在线学习和跟踪算法,第五节展示了在两个跟踪基准数据集中的实验结果。
2.相关工作
2.1 视觉跟踪算法
视觉跟踪是计算机视觉的基本问题之一,几十年来一直是人们研究的热点。大多数跟踪算法要么属于生成性方法,要么属于判别性方法。生成式方法使用生成式模型描述目标的外观,并搜索最符合模型的目标区域。已经提出了各种生成性目标外观建模算法,包括稀疏表示[31,43]、密度估计[16,22]和增量子空间学习[32]。相比之下,判别方法的目标是建立一个将目标对象与背景区分开来的模型。这些跟踪算法通常基于多实例学习[2]、P-N学习[24]、在线提升[14,15]、结构化输出支持向量机[17]等来学习分类器。
近年来,由于相关滤波器的计算效率和竞争性能,相关滤波器在视觉跟踪领域得到了广泛的关注[3,18,6,21]。Bolme等人的研究成果提出了一种具有最小输出平方误差和(MOSSE)滤波器的快速相关跟踪器,其运算速度为数百帧/秒。Henrique[18]使用循环矩阵构造了核化相关滤波器(KCF),并在傅立叶域中有效地结合了多通道特征。随后对KCF跟踪器的几种变体进行了研究,以提高跟踪性能。例如,DSST[6]学习用于转换和缩放的单独过滤器,而MUSTER[21]采用受心理记忆模型启发的短期和长期记忆存储。虽然这些方法在受约束的环境中是令人满意的,但它们有一个固有的局限性,即它们求助于低级别的手工制作的特征,这些特征在动态情况下很容易受到攻击,包括光照变化、遮挡、变形等。
2.2 卷积神经网络
CNN已经在广泛的计算机视觉应用中展示了其出色的表示能力[27,5,34,13,30,