融合视角下的RGBT单目标跟踪综述

作者:张志豪,赵健

转载自:北京图像图形学学会

编辑:东岸因为@一点人工一点智能

融合视角下的RGBT单目标跟踪综述RGBT视觉跟踪技术通过结合可见光与红外模态,有效应对低光环境、遮挡和伪装等复杂场景,显著提升跟踪性能,在多个领域展现出广阔的应用前景。icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzUyMDc5OTU5NA==&mid=2247620257&idx=3&sn=c99e82fa07b8bfa4702556ae46d13fdb&chksm=f9e782a4ce900bb27be5a85ab8e8a0ce4ee3cd98fa36d29a3850d5c143dab23f8a7bd43f227a&token=1703091607&lang=zh_CN#rd

图片

00 摘要

RGBT视觉跟踪技术通过结合可见光与红外模态,有效应对低光环境、遮挡和伪装等复杂场景,显著提升跟踪性能,在多个领域展现出广阔的应用前景。

本文深入剖析了RGBT融合跟踪的研究现状,依据其基础架构、特征表示及融合策略,将现有方法细分为特征解耦、特征选择、协作图跟踪及传统融合四大类。我们进一步对各类方法的优势、局限、代表性成果及未来发展方向进行了系统而深入的批判性分析。

为全面展示各类方法的优劣,本文回顾了公开可用的RGBT跟踪数据集,并详细分析了这些数据集上的主要实验结果。此外,我们还探讨了当前RGBT跟踪技术面临的一些限制,并展望了数据集多样性、无监督与弱监督应用等前沿机遇与发展方向。

01  引言

可见光跟踪技术作为物体跟踪领域的核心方法,广泛利用视觉传感器如相机来检测并追踪场景中物体的移动轨迹。其非侵入性、成本效益和广泛适应性备受青睐。然而,光照变化、遮挡、背景杂乱和物体外观变动等因素常限制其性能。相比之下,红外图像提供了对可见光跟踪的重要补充,如更强的抗光照变化能力、遮挡环境下的跟踪稳定性以及更精确的深度信息。但红外数据颜色信息较少,特征不明显,也存在局限性。为弥补这一差距,研究者们日益关注融合算法,旨在克服单模态方法的限制。

图片

本文以融合角度出发将现有的RGBT跟踪方法分为四类:特征解耦、特征选择、协作图跟踪及传统融合四大类。在深度学习兴起前,传统滤波技术如贝叶斯滤波、粒子滤波等主导了跟踪领域,它们依赖手工设计的特征如HOG、SIFT。基于特征解耦的方法尝试从不同模态中分离特征表示,通过建模每种模态的独特特征来增强跟踪性能。基于特征选择的方法则侧重于挖掘不同模态的区分信息,通过生成权重或采用独特策略来进行特征融合。以协同图为基础跟踪方法以图像块的来构建图模型来优化RGBT目标跟踪。

02  传统滤波方法

早在2000年,RGBT融合方法就吸引了研究人员的注意。当时,学者们广泛使用手工特征,如HOG、SIFT和局部二值模式(LBP)来处理不同模态的图像。

在跟踪技术方面,主要使用传统的跟踪方法,如卡尔曼滤波、粒子滤波、均值漂移和相关滤波进行跟踪。这些方法结构简单易于实现,但缺乏有效的上下文信息且大多为计算密集型,无论在跟踪精度上和速度上都难以满足现实需求。

03  特征解耦合方法

在RGBT跟踪的背景下,特征解耦的原理是学习目标模态的单独特征表示,然后将其组合以提高整体跟踪性能。目前主流的基于特征解耦合的跟踪方法主要有稀疏表示、基于属性的特征解耦以及模态共享和特定特征解耦融合。

3.1 稀疏表示

稀疏表示是一种数学技术,将图像表示为几个基本构建块或原子的组合。目标是找到一组稀疏的系数,可以准确地表示信号或图像。在RGBT跟踪早期,研究者通常将稀疏表示与粒子滤波、贝叶斯滤波框架等方法结合或将可见光和红外图像块的特征连接成一维向量,然后在目标模板空间中稀疏表示。这类方法具有一定创新性和实用性,但大多不能满足实时性要求,而且这种模型通常基于像素特征表示,对复杂场景和环境的鲁棒性较差。

3.2 基于属性的特征解耦

在视觉跟踪领域,研究人员面临着在各种困难条件下建模目标外观的挑战,如快速运动、尺度变化、光照变化等。为了应对这一挑战,研究人员专注于使用少量参数来表示复杂的目标变化。具体而言,如下图所示,许多研究试图基于需要解决的特定挑战来解耦目标特征,并使用基于属性的多分支网络学习相应属性的表示。

图片
图1 基于属性的特征解耦融合策略的流程图

Qi等人首次将挑战属性解耦合方法应用于视觉跟踪,并提出了一种具有多个分支的基于属性的神经网络ANT,其中每个分支负责将目标分类到特定属性下。通过利用视频帧的属性信息,这种方法可以生成更具鉴别力的表示,使其能够应对复杂的跟踪挑战。此外,模型的设计有利于减少目标在每个属性下的外观多样性,最终需要更少的数据来训练模型。考虑到每个模态中存在的独特挑战,以及模态之间共享的共同挑战,李成龙等人提出了挑战感知跟踪算法(CAT)。具体而言,这项工作将光照变化(IV)和热交叉(TC)视为模态特定的挑战,而快速运动(FM)、遮挡(OCC)和尺度变化(SV)则视为模态共享的挑战。在CAT中,一些分支旨在通过共享参数来解决模态共享挑战,而其他具有独立参数的分支则专注于处理特定模态的挑战。

上述这些之前的工作主要集中在数量有限的挑战因素上,这些因素可能不足以涵盖现实世界跟踪场景中的所有的挑战。一个自然的扩展是设计一种基于挑战因素的自适应属性解耦方法。ADRNet为此提出了一种属性驱动表示网络,该网络不仅考虑了遮挡和运动模糊等主要和特殊的挑战,还考虑了未知的耦合挑战。特别地,它设计了一个通用分支来自适应地适应属性不可知的跟踪过程。APFNet通过解耦属性信息的融合过程,提出了一种基于属性的渐进融合网络。它使用基于SKNet的聚合模型自适应地聚合特定于属性的融合特征。该模型可以通过预测每个融合特征的通道注意力来抑制挑战属性中的噪声因子。

基于属性的特征解耦有效地解决了各种跟踪挑战,并且可以在有限的训练数据下克服这些挑战。然而,在实践中,可能存在各种各样的未知挑战。仍然有必要探索如何设计合适的网络结构来应对未知的挑战,以及如何将特征完全解耦以实现更准确的目标表示。

3.3 基于模态特定与共享的解耦合方法

RGBT跟踪旨在扩展数据维度,实现互补融合。然而,融合过程可能会导致数据冗余,从而使区分有价值的数据与无关或冗余的数据变得具有挑战性。模态共享和特定解耦融合已成为该问题的潜在解决方案,为增强RGBT跟踪提供了一种很有前途的方法。通过共享模态特定特征和解耦模态共享特征,该方法可以有效地减少数据冗余,改善RGBT特征的表示。

这类方法的先驱是多适配器卷积网络(MANet),如下图所示。它设计了一个端到端的深度跟踪器方法,对模态共享、模态特定和实例感知进行联合特征学习。它包含三个部分:通用适配器、模态适配器以及实例适配器。通用适配器提取共享对象表示,模态适配器编码模态特定信息以利用其互补优势,实例适配器对特定对象的外观特性和时间变化进行建模。在MANet基础上,MANet++提出了一种多层次发散损失函数,试图最大化模态特定特征和模态共享特征之间的分布差异,同时最小化模态共享特征分布之间的距离。

图片
图2 MANet方法 

同样,SiamIVFN在孪生网络架构上设计了一个基于模态互补的特征融合子网络,该子网络在每个卷积层中使用不同耦合率的滤波器来学习红外和可见图像之间的共同特征。受MANet的启发,DMSTM提出了一种双模态主干网络。它在每个下采样层的通用特征和模态特征之间进行元素相加,以实现不同尺度的特征融合同时利用浅层的空间信息和深层的语义信息来进行更有效的跟踪。

模态共享和特定解耦融合是一种广泛采用的技术,它简化了多模态融合问题,并通过消除冗余数据,在有限的参数下实现了精确的目标建模。然而,这种方法在不同模态下的特征缺乏交互过程,导致在多模态互补上的能力有限,是一种典型的判别式跟踪方法。

04  基于特征选择的方法

基于特征选择的方法的目的在于从每种模态中选择信息量最大、最相关的特征,并将它们融合在一起。该方法可以有效地降低特征空间的维数,避免数据冗余,提高模型的泛化能力。根据特征选择方法的不同,基于特征选择的方法可分为两类:硬特征选择和软特征选择。

4.1 硬选择

硬特征选择是指根据一定的规则或标准从提取的特征中选择最有价值的特征。选择过程通常是手动或使用一些预定义的规则或算法。

在RGBT对象跟踪的早期阶段,这类方法使用手动设置的固定权重来集成可见光和红外特征。然而,这些方法的权重不能适应不同模态的动态变化,导致跟踪性能欠佳。2016年,李等人在贝叶斯滤波框架中提出了一种自适应RGBT跟踪方法。它为每个模态引入了权重变量,并可以在线优化。

最近,基于深度学习的硬特征选择方法已被应用于RGBT跟踪。例如将孪生网络加入到该类方法中提出了一种动态模态交互和特征自适应融合的RGBT跟踪。该网络由一个双流ConvNet和一个FusionNet组成。FusionNet被设计为通过从双流ConvNet的输出中自适应地选择最具鉴别力的特征图来融合不同的模态。在线跟踪过程中,FusionNet会进行更新,以确保采用目标外观变化的最佳特征选择。

Zhu等人在MDNet基础上提出了一种密集特征聚合和修剪网络(DAPNet)。如图3所示,它采用全局平均池和加权随机选择算法的运算来选择得分最高的信道。此外,他们还提出了三叉融合网络(TFNet),其中该网络遵循DAPNet的修剪策略并分别应用于单模态分支和多模态融合分支。

图片
图3 DAPNet

硬特征选择方法在去除特征冗余和噪声方面显示出良好的效果。然而,这种方法在很大程度上依赖于手动设计的损失函数或修剪标准。使用硬选择可能会给有用的特征带来风险,错误地删除它们可能会大大降低算法的准确性。

4.2 软选择

特征软选择是目前RGBT融合方法中最为流行的方法。这类方法根据每个模态的特征动态地计算它们的权重,以实现模态融合。与硬选择方法相比,软选择方法可以更好地适应不同模态之间特征分布的差异,减少特征信息的丢失,提高模态融合的有效性。

SiamFT在SiamFC架构下对模板和搜索特征使用不同的融合策略。具体而言,对于模板特征,SiamFT使用简单的级联,而对于搜索特征,网络学习模态可靠性权重进行融合。基于SiamFT,张等人提出了DSiamMFT,这是一种基于动态孪生网络的多层融合跟踪方法。它采用注意力机制来计算多级特征的可靠性权重,实现多级特征和多模态特征的自适应融合。郭等人提出了一种基于对偶连体网络的响应级融合跟踪方法,称为DuSiamRT。该方法利用模态通道注意机制来评估两个模态特征的通道贡献。基于TransT架构,Hou提出了一种模态感知跟踪器MTNet。在具体的融合架构方面,MTNet与FANet类似。它构造了一个信道聚合和分发模块,以消除骨干功能的冗余信道。为了获得两种模态的更准确的可靠性权重,刘等人提出了QAT网络,该跟踪器结合了可靠性学习和残差引导来增强每种模态的特征。

与上述基于特征的软选择的孪生网络跟踪器相比,也有一些研究者使用其他架构如MDNet。例如,朱等人提出了一种质量感知特征聚合网络(FANet)。如图所示,它首先将两种模态的特征连接起来进行模态间连接交互,然后将其与计算模态权重分离。此外,它还考虑了不同层次特征的可靠性,提出了一种用于多层深度特征自适应聚合的分层特征聚合子网络。此外,高提出了一种用于RGBT跟踪的深度自适应融合网络DAFNet。与FANnet相比,DAFNet采用渐进式融合框架,在特征提取过程中对每一层特征进行RGBT融合。M5L还采用了基于注意力的融合方案来计算每个模态的重要性。他们从正负样本匹配的角度提出了多模态多裕度结构损失,以保留样本的结构信息。

图片
图4 FANnet

为了进一步探索注意力机制在RGBT信息融合中的潜力,一些研究者提出了使用混合注意力机制来实现这一目标的方法。例如,CBPNet采用通道注意力和空间注意力机制执行多模态跨层双线性池化跟踪算法。JMMAC将模态权重划分为全局权重和局部权重,以实现更准确的融合响应图。具体来说,它使用全局权重来利用RGB和T模态的互补性,并获得整个上下文的权重。另一方面,局部权重用于抑制负样本的干扰并提高跟踪器的鲁棒性。张等人提出了分层RGBT融合跟踪器(HMFT),该跟踪器在图像、特征和决策三个级别集成了融合模块。在特征级别,HMFT引入了通道级模态权重来执行判别性特征融合。在决策级别,HMFT根据它们的模态置信度采用自适应决策融合(ADF)来处理这两个响应图。为了应对目标大小的变化,MSIFNet算法设计了一个特征选择模块,通过通道感知机制自适应地选择多尺度特征进行融合,同时抑制了多个分支带来的噪声和冗余信息。

在某些情况下,传统的软特征融合方法使用加权融合可能会抑制一些有用的信息。因此,一些研究者尝试增强多模态特征之间的交互,实现双向特征软选择,以优势模态引导较弱模态。

例如,在夜间场景中,红外模态可以用于引导可见光模态的特征表示,而不是为可见光模态乘以一个小权重。这种交互式融合方法可以提高多模态特征的利用效率,从而增强跟踪性能。例如,Hui Lu等人提出了一种RGBT目标跟踪算法(MaCNet),以有效地融合双模态信息。MaCNet使用每个模态的视觉注意机制来估计相应特征的重要性,然后使用指示模态重要性的共享特征来引导特征融合过程,增强模态之间的交互,并改善整体跟踪性能。

王等人提出了一种跨模态模式传播(CMPP)跟踪框架,以在空间域和时间域上扩散RGBT数据上的实例模式。该工作提出了一种跨模态模式传播方法,使得可能在模态之间相互传播有用的模式,从而使特征信息可以互相补偿。此外,它将模式传播的精神从跨模态空间域扩展到时间域,构建了动态模式传播。

张等人提出了SiamCDA,它建立在先进的基于锚点的跟踪器SiamRPN之上,并包含一个补充感知的多模态特征融合模块(CA-MF),用于在Siamese区域提案过程之前进行多模态特征融合。首先通过减少单模态特征之间的模态差异来增强两种模态的特征。然后,增强的RGB和热红外特征将通过一些融合策略进一步组合以获得最终的融合特征。类似于SiamCDA,SiamCAF~\cite{xue2023siamcaf}设计了一个互补耦合特征融合模块(CCF),以提取相似特征并减少模态差异以更好地融合特征。它首先使用耦合滤波器提取可见光和热红外特征之间的相似特征,获得权重图。然后,它通过交叉模态连接增强特征。最后,CCF通过串联融合增强特征,并在1×1卷积层中融合通道信息。

卢等人提出了一种双重门控相互条件网络(DMCNet),以利用所有模态的判别信息同时抑制数据噪声的影响。在这项工作中,双重门控相互条件模块用于提取模态判别性特征以引导其他模态特征的学习。

冯等人提出了一种贡献感知聚合网络SiamMLAA,自适应学习RGB和热模态的可靠权重进行融合。融合响应经过分类和回归网络来定位目标。朱等人提出了一种视觉提示跟踪框架ViPT。它将可见光视为主要模态,红外视为辅助模态,利用红外的补充信息更好地补充主要模态。

05  协同图跟踪

协同图跟踪方法是一种基于分类的跟踪方法,它将目标跟踪问题转化为二元分类问题。该方法使用分类器区分目标区域和背景区域。它利用图来捕获目标区域的空间结构信息。

具体而言,该方法首先对图像进行分割,将样本区域划分为多个不重叠的块作为节点。然后该方法为每个图像块分配一个权重,以指示该块是否属于前景或背景。两个图像块之间的边权重也被赋值以表示它们之间的关系。最后,使用诸如SVM之类的分类方法对这些节点中的前景和背景进行分类,从而获得目标边界框。下图展示了基于协同图的RGBT跟踪方法的一般框架。

图片
图5 协同图跟踪

06  数据集及评价指标

公开数据集是用于评估和训练单目标跟踪算法的重要资源。它们提供了各种场景下的真实数据,同时也涵盖了不同的挑战,如遮挡、运动模糊、光照变化等。

常见的RGBT单目标跟踪数据集包括RGBT210、RGBT234、GTOT、VOT2019RGBT[80]、LasHeR(Large-scale High-diversity benchmark for RGBT tracking、VTUAV(Visible Thermal Unmanned Aerial Vehicle)等。

这些数据集为研究人员提供了一个标准化的平台,用于评估和比较不同单目标跟踪算法的性能。下表给出了上述数据集的详细参数。

图片

目标跟踪算法主要使用的评价指标主要包括OTB和VOT两大类等。

OTB评价指标通常包含精确度、成功率、鲁棒性。其中精确度通过计算预测框中心点与真实框的中心点的欧氏距离来评判目标跟踪算法的准确性,成功率通过判断目标真实值与预测值的交占比来计算跟踪成功的百分比,鲁棒性通过计算成功跟踪的子序列帧的百分比来评估跟踪器的性能。

VOT评价指标通常包含准确率Accuracy(在单个测试序列下的平均重叠率),鲁棒性Robustness(在单个测试序列下的跟踪失败的次数),EAO(平均重叠期望:不同长度序列求得的准确率平均值再取平均)。

07  实验结果

下表统计了常见的RGBT跟踪器在主流数据集下的表现结果。

图片

图片

图片

08  前景展望

8.1 真实世界场景中的大规模RGBT融合数据集

在现实场景中,由于摄像机位置的不同,可见光和红外数据通常不对齐,输入数据也更加复杂和多样,充满了不确定性。例如,在夜间跟踪场景中,可见光数据集几乎无效。背景、红外热源以及多种挑战性因素严重干扰了输入图像。然而,现有的跟踪器需要高度对齐的数据作为输入才能实现多模态融合,并且各种挑战性因素不像在现实生活中那样复杂。因此,有必要提出一个大规模的未对齐数据集,其中包含现实场景中的各种挑战因素。

8.2 检测跟踪相结合

当前的目标跟踪模型在跟踪特定视频时需要手动标注第一帧。然而,在现实世界的自动跟踪场景中,第一帧的标注信息可能丢失,比如在无人机反制任务中。因此,设计一种减少对第一帧标注依赖的自动跟踪方法是未来值得探索的方向。借助目标检测的帮助,跟踪器可以自动检测并初始化要跟踪的对象在后续帧中,从而消除对第一帧的手动标注的需求。此外,整合检测和跟踪也可以提高跟踪器的鲁棒性和准确性,因为它可以处理目标暂时消失或重新出现的各种情况而进行重检测。因此,整合检测和跟踪是RGBT跟踪发展的重要方向,还有很大的探索和改进潜力。

8.3 无监督弱监督RGBT跟踪

无监督RGBT目标跟踪正处于早期发展阶段。探索RGBT跟踪中的无监督和弱监督方法,对推进实用和鲁棒的跟踪系统具有重大意义。这些方法具有减少或消除对昂贵和耗时的人工注释的需求的优点,特别是在现实场景中。集成无监督和弱监督学习使跟踪系统能够从不同的非结构化数据中学习,增强对动态环境的适应性。然而,挑战依然存在,包括设计有效的特征表示、提高模型可解释性以及解决领域转换问题。持续的研究工作对于克服这些挑战和推进无监督和弱监督方法在RGBT跟踪中的实际应用至关重要。

09  总结

在本文中,我们全面回顾了现有的RGBT目标跟踪方法,并将其分类为以下四类:传统滤波方法、基于特征解耦的方法、基于特征选择的方法和协同图跟踪方法。

此外,我们对每种方法的原理进行了详细讨论,并选择了代表性方法进行详细阐述。此外,我们总结了现有的RGBT目标跟踪数据集、相关评估指标,并分析了现有方法在当前数据集下的性能。最后,我们从三个角度提出了一些展望:大规模RGBT融合数据集、集成检测和跟踪框架以及无监督和弱监督学习。

总的来说,本文从融合的角度全面概述了RGBT目标跟踪,希望读者能够轻松掌握多模态视觉跟踪的基本发展,并为读者提供更多的启示。

  • 9
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一点人工一点智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值