【论文速递】CVPR2022 - MixFormer：使用迭代混合注意进行端到端跟踪-CSDN博客

本文链接：https://blog.csdn.net/Never_moresf/article/details/128997096

【论文速递】CVPR2022 - MixFormer：使用迭代混合注意进行端到端跟踪

【论文原文】：MixFormer: End-to-End Tracking with Iterative Mixed Attention

【作者信息】：Yutao Cui，Cheng Jiang，Limin Wang，Gangshan Wu

获取地址：https://arxiv.org/abs/2203.11082
code：https://github.com/MCG-NJU/MixFormer

博主关键词： 单目标跟踪，Iterative Mixed Attention

推荐相关论文：

【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪
- https://blog.csdn.net/Never_moresf/article/details/128735708
【论文速递】CVPR2022 - 全局跟踪Transformers
- https://blog.csdn.net/Never_moresf/article/details/128704693

摘要：

跟踪通常使用多阶段的特征提取、目标信息整合和边界框估计pipeline。为了简化这一pipeline，统一特征提取和目标信息整合的过程，我们提出了一个以transformer为基础的紧凑跟踪框架，称为Mixformer。我们的核心设计是利用注意力操作的灵活性，提出了一个混合注意模块（MAM），用于同时进行特征提取和目标信息集成。该同步建模方案允许提取特定目标的鉴别特征，并在目标和搜索区域之间进行广泛的通信。基于MAM，我们通过多次堆叠带有patch embbeding的MAM和放置定位头来构建我们的MixFormer跟踪框架。此外，为了在在线跟踪过程中处理多个目标模板，我们在MAM中设计了一种非对称注意方案，以降低计算成本，并提出了一个有效的分数预测模块来选择高质量的模板。我们的MixFormer在包括LaSOT、TrackingNet、VOT2020、GOT-10k和UAV123在内的五个跟踪基准上设置了新的最先进性能。特别地，我们的MixFormer-L在LaSOT上实现了79.9%的NP分数，在TrackingNet上实现了88.9%的NP分数，在VOT2020上实现了0.555的EAO。我们还进行了深入的消融研究，以证明同时特征提取和信息整合的有效性。代码和训练模型可以在https://github.com/MCG-NJU/MixFormer公开获得。

关键词 单目标跟踪，Iterative Mixed Attention

简介：

视觉目标跟踪[1,4,4,18,24,36,42,45]一直是计算机视觉领域的一项基本任务，旨在估计视频序列中任意给定初始标记的目标的状态。它已成功应用于各种应用中，如人机交互[34]和视觉监视[55]。然而在现实的场景中，设计一个简单而有效的端到端跟踪器仍然具有挑战性。主要的挑战来自尺度变化、物体变形、遮挡和来自类似物体的混淆等。
目前流行的跟踪器通常具有多级pipeline，如图1所示。它包含几个组件来完成跟踪任务： (1)骨干网络，用于提取跟踪目标和搜索区域的通用特征，(2)一个集成模块，用来进行跟踪目标和搜索区域之间的信息通信和搜索区域后续目标感知的定位，(3)特定的任务头，用于精确定位目标和估计其边界框。集成模块是跟踪算法的关键，因为它负责整合目标信息，以连接通用特征提取和目标感知定位。传统的集成方法包括基于相关性的操作（比如SiamFC [2], SiamRPN [29], CRPN [18], SiamFC++ [56], SiamBAN [8], OCEAN [64]) 和在线学习算法(比如, DCF [36], KCF [22], CSRDCF [37], ATOM [12], DiMP [3], FCOT [9])）。最近，由于transformer[46]的全局和动态建模能力，transformer[46]被引入来进行基于注意力的集成，并产生良好的跟踪性能（比如, TransT [6], TMT [49], STMTrack [19], TREG [10], STARK [57], DTT [59]).然而，这些基于transformer的跟踪器仍然依赖于CNN来进行一般的特征提取，并且只在后者的高级和抽象表示空间中应用注意操作。我们分析，这些CNN表示是有限的，因为它们通常是预先训练的，可能忽略更精细的结构信息进行跟踪。此外，这些CNN表示采用了局部卷积核，缺乏全局建模能力。因此，CNN表示仍然是他们的瓶颈，这阻止了他们对整个跟踪管道完全释放自我关注的能力。
为了克服上述问题，我们提出了跟踪框架设计的一个新的视角，即 通用的特征提取和目标信息集成应该在一个统一的框架内耦合在一起。这种耦合处理范式有几个关键的优点。首先，它将使我们的特征提取更针对相应的跟踪目标，并捕获更多特定目标的鉴别特征。其次，它还允许将目标信息更广泛地集成到搜索区域中，从而更好地捕获它们的相关性。此外，这将导致一个更紧凑和整洁的跟踪管道，只有一个主干和跟踪头，没有一个显式的交互模块。

在这里插入图片描述

Fig. 1. Comparison of tracking pipeline. (a) The dominant tracking framework contains three components: a convolutional or transformer backbone, a carefully-designed integration module, and task-specific heads. (b) Our MixFormer is more compact and composed of two components: a target-search mixed attention based backbone and a simple localization head.

根据上面的分析，本文介绍了MixFormer，一个简单的跟踪框架，专门使用基于transformer的体系结构统一特征提取和目标整合。注意模块是一个非常灵活的体系结构构建块，具有动态和全局建模能力，对数据结构的假设很少，可以通用于通用关系建模。我们的核心思想是利用这种注意操作的灵活性，提出了一个混合注意模块（MAM），它同时执行特征提取和目标模板与搜索区域的相互作用。特别是，在我们的MAM中，我们设计了一种混合交互方案，使用来自目标模板和搜索区域的token的自注意和交叉注意操作。自注意负责提取目标或搜索区域的自身特征，而交叉注意则允许它们之间的通信，以混合目标和搜索区域信息。为了减少MAM的计算成本，从而允许用多个模板处理对象变形，我们进一步提出了一种定制的非对称注意方案，通过剪枝不必要的目标到搜索区域的交叉注意。
在这里插入图片描述

Fig. 2. Mixed Attention Module (MAM).

在图像识别中成功的transformer体系结构的基础上，我们通过堆叠Patch Embedding和MAM的层构建了MixFormer骨干。最后，我们在其上放置一个简单的定位头，从而得到我们的整个跟踪框架。作为跟踪过程中处理目标变形的常见做法，我们还提出了一种基于分数的目标模板更新机制，并且我们的MixFormer可以轻松适应多个目标模板输入。在多个基准测试中的广泛实验表明，MixFormer达到了新的sota，具有在GTX 1080Ti GPU上以25 FPS的实时运行速度的最新性能。特别是，MixFormer-L在VOT2020上超过STARK [57] 5.0％（EAO分数），在LaSOT上2.9％（NP分数），在TrackingNet上2.0％（NP分数）。

综上所述，主要贡献总结如下：
1.我们提出了一个基于迭代混合注意模块（MAM）的紧凑的端到端跟踪框架，称为MixFormer。它允许提取目标特定的鉴别特征，并同时进行目标和搜索之间的广泛通信
2.对于在线模板更新，我们设计了一个定制的非对称注意力模块，以提高效率，并提出了一个有效的分数预测模块，以选择高质量的模板，从而实现了高效且有效的基于transformer的跟踪器。
3.所提出的MixFormer在五个具有挑战性的基准测试中设定了新的最新性能，包括VOT2020 [26]，LaSOT [17]，TrackingNet [41]，GOT-10k [23]和UAV123 [40]。

【论文速递 | 精选】

论坛地址：https://bbs.csdn.net/forums/paper