用于高效 RGB-T 跟踪的统一单级变压器网络
Abstract:
现有的RGB-T跟踪网络大多以单独的方式提取模态特征,缺乏模态之间的交互和相互指导。这限制了网络适应目标的多种双模态外观以及模态之间的动态关系的能力。此外,这些网络遵循的三阶段融合跟踪范式极大地限制了跟踪速度。为了克服这些问题,我们提出了一个统一的单级 Transformer RGB-T 跟踪网络,即 USTrack,它通过自注意力机制将上述三个阶段统一为具有双嵌入层的单个 ViT(Vision Transformer)主干。通过这种结构,网络可以在模态交互作用下提取模板和搜索区域的融合特征。同时,对这些特征之间进行关系建模,有效地获得具有更好的目标背景区分度的搜索区域融合特征进行预测。此外,我们引入了一种基于模态可靠性的新颖特征选择机制,以减轻无效模态对预测的影响,进一步提高跟踪性能。
Introducton:
可见热(RGB-T)跟踪通过使用RGB和热信息极大地扩展了单目标跟踪(SOT)的应用场景,提高了SOT在光照变化、遮挡和极端天气等挑战性条件下的跟踪性能。因此,RGB-T跟踪成为近年来的研究热点。大多数RGB-T跟踪网络可以分为三个功能部分:特征提取、特征融合以及模板和搜索区域的融合特征之间的关系建模。得益于RGB跟踪的快速发展,现有的RGB-T跟踪网络直接采用RGB跟踪网络作为基本网络架构。他们继承了原有的特征提取和关系建模的方式,然后专注于融合模块的设计。它们的总体框架如图1(a)所示。
大多数现有的 RGB-T 跟踪方法遵循三阶段融合跟踪范例。他们使用两个子网络分别从模板和搜索区域中提取 RGB 和热特征。然后使用特征融合模块将这些特征融合以获得模板融合特征和搜索区域融合特征。随后,执行模板和搜索区域的融合特征之间的关系建模操作。在关系建模之后,处理后的搜索区域融合特征被用于预测。然而,单独的子网络导致在特征提取阶段两种模态之间缺乏交互。因此,网络只能从每种模态中提取规则特征,而不能根据模态状态进行有效调整的动态特征。然而,如图2所示,这种模式不适合RGB-T跟踪,特别是在复杂环境中,因为不同的目标具有不同的双模态外观,并且两种模态的外观可以随着跟踪环境而不断变化。由于遮挡、光照变化或热量等因素,相应模态的外观经常发生暂时变化或缺失,这导致两种模态的外观所覆盖的区域并不总是一致。此外,三阶段融合跟踪范式确实很难平衡性能和速度。
我们提出了一个统一的单级 Transformer RGB-T 跟踪网络 USTrack 来解决上述问题。如图1(b)所示,USTrack的核心是通过自注意力机制将特征提取、特征融合和关系建模统一到单个ViT(Dosovitskiy et al. 2020)主干中同时执行,高效地获得搜索用于预测的区域融合特征。具体来说,我们首先通过双嵌入层将图像块从两种模态映射到适当的潜在空间,以对齐模式并减轻特征融合的内在异质性的影响。在 ViT 主干的注意力层中,我们分别对模板和搜索区域执行相同的操作。首先,我们连接两种模态的标记,然后对连接的特征应用自注意力机制,直接提取模板融合特征和搜索区域融合特征。该过程统一了模态特征的提取和融合,促进了特征提取阶段模态之间的交互。该网络可以基于注意力权重自适应地学习两种模态特征之间的语义相似性,并利用这种相似性来建模模态共享信息。在特征提取阶段,一种模态可以基于模态共享信息选择性地从另一种模态获取模态特定信息,从而指导和调整从自身提取的特征。这使得网络能够更好地适应目标的不同双模态外观以及模态之间的动态关系。
对于模板融合特征和搜索区域融合特征之间的关系建模方法,受到 RGB 跟踪方法 OSTrack (Ye et al. 2022) 和 SimTrack (Chen et al. 2022) 的启发,我们采用对连接模板和搜索区域融合特征作为我们的关系建模方式。使得网络在两个模板的指导下增强提取的搜索区域融合特征的目标背景辨别能力。为了在不添加额外注意力层的情况下进一步提高网络的推理速度,我们进一步将用于提取融合特征的自注意力与用于关系建模的自注意力无缝地统一起来。通过并行执行,我们显着加快了推理速度。
这样,我们可以获得基于不同模态的两个搜索区域融合特征来预测结果。与其他直接连接两个融合特征的基于 Transformer 的 RGB-T 跟踪网络(Xiao et al. 2022; Hou, Ren, and Wu 2022; Hui et al. 2023)不同,我们提出了一种基于模态可靠性的特征选择机制,以减少无效模态的噪声信息对预测的影响。该机制可以自适应地选择更适合跟踪环境的融合特征进行预测,进一步提高跟踪性能。据我们所知,USTrack 是目前第一个在不使用任何额外融合模块的情况下有效实现 RGB-T 跟踪的网络。我们的贡献总结如下:
我们提出了一种单级 Transformer RGB-T 跟踪网络 USTrack,它可以在模态交互下提取模板和搜索区域的融合特征,并同时进行关系建模以进一步提高跟踪速度。 • 我们提出了一种基于模态可靠性的特征选择机制,可以根据具体的跟踪环境从基于不同模态的两个融合特征中选择合适的融合特征来预测结果。
Related work:
1.RGB-T Tracking
2.RGB Tracking
Unified Single-Stage RGB-T Tracking
如图3所示,USTrack的整体架构由三个组件组成:双嵌入层、单个ViT主干和具有基于模态可靠性的特征选择机制的双预测头。自注意力基于相似性来获取全局信息,模态之间固有的异质性可能会限制网络通过注意力权重对模态共享信息进行建模的能力,从而影响后续的融合过程。因此,我们使用两个可学习的嵌入层将属于不同模态的输入映射到有利于融合的潜在空间。我们选择ViT作为主干网络,利用其自注意力层同时进行特征提取、特征融合以及模板和搜索区域的融合特征之间的关系建模,获得包含用于预测的关系信息的搜索区域融合特征。考虑到单一模态可能并不适合所有跟踪场景,例如黑暗、遮挡和热交叉等,相应的模态已经丢失了目标外观的所有信息,并产生了大量的噪声信息。基于模态可靠性的特征选择机制帮助网络选择更适合当前跟踪场景的模态生成的搜索区域融合特征,减少无效模态带来的噪声对预测结果的影响。