MDNet -- 学习用于视觉跟踪的多域卷积神经网络

最新推荐文章于 2024-04-18 09:41:59 发布

lixiaotong95

最新推荐文章于 2024-04-18 09:41:59 发布

阅读量1.2w

点赞数 6

分类专栏：目标跟踪论文

本文链接：https://blog.csdn.net/lixiaotong95/article/details/80380757

版权

作者提出了一种名为MDNet的新型CNN架构，用于视觉跟踪。该网络通过多域学习从大量跟踪视频中学习通用目标表示，每个域对应独立的训练等级，用于区分目标和背景。MDNet在跟踪新序列时结合预训练的共享层和在线更新的二分类层。实验证明，MDNet在跟踪基准上表现出优越性能。

摘要由CSDN通过智能技术生成

摘要

作者提出了一种新颖的视觉跟踪算法，基于一个来自有区别训练的CNN的表示（representation）。算法中使用大量跟踪视频的ground-truth来对CNN进行预训练，以获得通用的目标表示。

网络由共享层和特定域的层的多分支组成，其中域对应于独立的训练等级，并且每个分支负责一个二分类去识别每个域中的目标。我们针对每个域迭代地训练网络来获得共享层中的通用目标表示。

当跟踪一个新的视频序列中的目标时，我们将通过结合预训练CNN中的共享层与一个新的（在线更新的）二分类层来构建新的网络。在线跟踪（online tracking）是通过评估之前帧目标周围（附近）随机采样得到的候选窗口实现的。

与现有跟踪基准中的最新方法相比，所提出的算法表现出优异的性能。

一、Introduction

最近，CNN被应用于各种计算机视觉任务，如图像分类，语义分割，物体检测等等。 CNN的这种巨大成功主要归因于其在表现视觉数据方面的出色表现。然而，视觉跟踪受这些流行趋势的影响较小，因为很难为视频处理收集大量训练数据，而专门用于视觉跟踪的训练算法尚不可用，并且基于低级手工的特征方法在实践中仍然很好用。

最近的一些跟踪算法已经通过迁移在大规模分类数据集（如ImageNet）上预训练的CNN的方法解决了数据不足的问题。尽管这些方法可能足以获得通用特征表示，但由于分类和跟踪问题的基本不一致，比如预测对象类别标签与定位任意类别的目标，所以在跟踪方面的有效性是有限的。

为了在视觉跟踪任务中充分利用CNN的表示力（representation power），需要对它们在视觉追踪的大规模数据上进行专门的训练，并且这些数据中涵盖目标和背景组合的各种变化。然而，在具有完全不同特征的视频序列上学习统一的特征表示真的具有挑战性。更加值得注意的是，单个序列中涉及不同类别的目标，其类别标签，移动模式和外观都不尽相同，并且跟踪算法受特殊序列挑战，包括遮挡，变形，光照条件变化，运动模糊等。这使得CNN的训练更加困难，因为同一类型的对象可能在一个视频序列中为目标而在另一个序列中却是背景。

由于这些序列之间的差异和不一致性，我们认为基于标准分类任务的普通学习方法是不合适的，另一种为了得到更好的跟踪特征表示而捕获序列无关信息（approach to capture sequence-independent information ）的方法应该被采纳。

受此启发，作者提出了一种被称为多域网络（MDNet）的新型CNN体系结构，用于从多个注释视频序列中学习目标的共享表示（shared representation）以进行跟踪，其中每个视频被视为一个单独的域。提出的这种网络在末端具有用于每个独立特定域二分类的分支，并且共享从前面层中的所有序列中捕获的用来学习通用表示特征的共同信息。 MDNet中的每个域在分别进行迭代训练，共享层在每次迭代中更新。通过采用这种策略，我们将领域独立信息与领域特定信息分开，并学习用于视觉跟踪的通用特征表示。 MDNet结构的另一个有趣的方面是，我们设计的CNN与分类任务的网络相比，例如AlexNet 和VGG网络，层数更少。

我们还提出了一个有效的在线跟踪框架，该框架基于MDNet获得的特征表示。

当给出一个测试序列时，所有在训练阶段使用的二元分类层的现有分支被删除，并构造一个新的单分支来计算测试序列中的目标分数。然后在跟踪过程中对共享层内的新分类层和完全连接层进行微调，以适应新的域。在线更新是为了模拟目标的长期和短期外观变化以分别提高鲁棒性和适应性，并将有效且高效的硬性负面挖掘技术（an effective and efficient hard negative mining technique）纳入学习过程。

本文算法由多领域表示学习和在线视觉追踪组成。主要工作和贡献如下：
•提出了一个基于CNN的多域学习框架，将领域独立信息与领域特定信息分开，以有效捕获共享表示。
•框架已成功应用于视觉跟踪，其中通过多域学习预训练的CNN在新序列中根据上下文在线更新，以自适应地学习领域特定信息。
•广泛实验证明本文跟踪算法与两项公共基准测试中的最新技术相比具有出色表现：对象跟踪基准（Object Tracking Benchmark）和VOT2014。

本文的其余部分安排如下: 第2部分中首先回顾的相关工作，第