【二】Deep learning and multi-modal fusion for real-time multi-object tracking

3.3. 多模态融合方法在实时MOT中的应用

在MOT领域,多模态融合是一种关键技术,通过整合来自不同来源的数据,提升跟踪算法的性能和鲁棒性。本节详细介绍了多模态融合的几种主要方法,包括多模态融合的层次分析、多模态融合技术的分类及其在MOT算法中的应用,以及多模态数据类别及其融合方法。

3.3.1. 多模态融合的层次分析

(1)特征层融合

特征层融合是一种关键的MOT技术,通过将来自不同数据源的特征整合为统一的特征表示。这种方法通常在数据处理的早期阶段进行,可以提高模型对不同数据特征的敏感性。传统的MOT方法主要关注每个目标及其形成的轨迹,忽略了轨迹之间的上下文信息。为了克服这一限制,文献[133]的作者提出了一种结合多通道特征和可学习图匹配的跟踪算法,基于并行图模型处理帧内目标的外观特征,并更高效地处理轨迹之间的复杂关系。

文献[134]的作者也采用了多尺度融合策略。这一策略涉及将低分辨率特征图的子网络逐步与高分辨率特征图的主网络并行连接。该方法有效地增强了目标特征的语义信息,从而提高了跟踪准确性。

文献[135]的作者研究了利用多特征融合来估计视频中的物体轨迹。这包括通过使用在不同阶段嵌入的特征和运动特征来关联检测和跟踪。

文献[136]的作者引入了一种基于峰值上下文学习的多特征融合跟踪算法,在提高跟踪准确性方面表现出色。此外,文献[30]的作者提出了一种基于Siamese网络的多模态、多层次融合模型,该模型专门用于RGB-T目标跟踪中的特征或像素级融合,显著提高了跟踪性能。

(2)决策层融合

决策层融合是MOT中的多模态融合关键技术。它将由不同模型生成的决策组合成统一的、更准确、更可靠的输出。这种融合方法特别适合复杂和不确定的环境,显著提升了跟踪系统的准确性和鲁棒性。最近的研究表明,多模态融合方法已从简单的数据级融合过渡到更复杂的决策级融合。例如,文献[133]提出了一种结合多通道特征和可学习图匹配的跟踪算法,解决了轨迹和帧内检测之间忽视上下文信息的问题。另一方面,其他研究工作[27,137]则通过利用图像纹理和点云的几何属性跟踪3D对象,克服了仅依赖几何匹配的限制。

在多传感器数据融合方面,文献[30]的作者提出了一种模块化的实时多传感器融合框架,用于融合来自分布式汽车传感器(如摄像头、雷达和激光雷达)的数据。此外,文献[138]提出了一种基于Siamese网络的多模态多层次融合模型,该模型包括一个像素层融合网络和一个特征层融合网络,以提高跟踪性能。

文献[139]的作者展示了通过探索不同的融合策略,包括像素层、特征层和决策层融合,来实现可见(RGB)和热红外(TIR)模态融合的多种选项。

决策层融合在具有复杂场景和多种目标的MOT任务中表现出色,减少了单一模型错误的影响,提高了系统整体性能。通过结合来自多个传感器和数据源的决策结果,可以显著提高MOT的准确性和鲁棒性。

(3)像素层融合

像素级融合是指在像素级别上结合来自不同传感器的信息。这种融合通常用于处理图像数据,例如,将红外摄像头和普通摄像头的图像进行融合,以增强模型对环境的感知。近期的主要进展包括使用面向对象的模型[139],通过构建完整的对象原型有效地处理遮挡。这种方法将面向对象的槽适应于检测输出,从而增强跟踪的可靠性。另一方面,多模态和多层次融合模型采用了像素级融合和特征级融合的组合,例如SiamMMF[30]。通过利用像素级和特征级数据,这种双重融合方法显著提高了跟踪性能,并在MOT领域开辟了新的可能性。

此外,文献[137]的作者建议像素级融合有助于克服未纹理化和不完整点云所带来的限制,从而更好地区分结构相似的物体。这种方法在目标模板与搜索区域之间的几何匹配中尤为重要。

3.3.2. 多模态融合技术的分类及其在MOT算法中的应用

(1)基于规则的融合方法

基于规则的多模态融合依赖于预定义的规则,将来自不同来源的数据进行组合;这种方法整合了多种模态数据,如视觉、激光雷达和雷达数据,应用规则基础的算法以提高MOT的准确性和鲁棒性。其优点在于实现简单,但可能缺乏灵活性和适应性。

文献[140]的作者提出了一种新颖的框架,将目标检测和MOT整合到一个模型中。这一创新绕过了传统检测跟踪范式中通常遇到的复杂数据关联过程,并且不需要额外的训练。此外,文献[141]的作者介绍了一种中层次的多模态融合方法。该方法为每种模态采用独立的编码器,以计算具有所需低空间体积的特征,从而解决了多模态数据整合中的挑战。

文献[142]的作者提出了一种雷达-摄像头(R-C)融合方法,用于3D移动目标检测。该方法通过在多模态融合之前验证来自多个传感器的结果,克服了时空不同步的挑战,并能适应各种场景中的MOT。

文献[143]采用了一种多模态融合技术,用于增强表示,该技术在检测过程的后期进行特征融合。这种方法允许对单一模态源的深层特征进行更好的表示,标志着与传统早期融合技术的区别。

文献[144,145]描述了在复杂和崎岖环境中使用多级相关性和融合的激光雷达和摄像头数据,以提高MOT的可靠性和准确性,尤其是在不利条件下。

文献[146]的作者介绍了一种多阶段相关方法,开发了一种用于3D多目标跟踪任务的跟踪器MSA-MOT,以减轻单阶段相关中固有的匹配问题,并进一步细化跟踪过程。

(2)自适应融合技术

自适应多模态融合基于机器学习,用于调整权重,以灵活适应多样的跟踪场景,增强系统的鲁棒性。其原理包括自适应权重调整和环境感知学习,使系统能够智能地实时调整融合策略。这种适应性不仅提高了多模态数据的有效利用,还优化了跟踪系统的整体性能,特别适合处理目标遮挡和复杂环境中的MOT挑战。

文献[133]的作者介绍了一种新型跟踪算法。该算法结合了多通道特征和可学习图匹配。与传统方法不同,它不仅考虑每个目标和独立形成的轨迹,还通过自适应多特征融合改进了遮挡问题的处理。

文献[141]的作者提出了一种中间多模态融合方法。该算法使用独立编码器为每种模态提取特征,以在较低的空间体积下有效计算特征。EagerMOT[147]通过整合来自两种传感器模态的目标检测结果,实现了对场景动态的全面解释。这种自适应融合技术为MOT提供了更全面的信息,提升了MOT系统的鲁棒性。

因此,文献[148]的作者提出了一种具有完整遮挡处理和自适应融合特性的MOT算法,建立了完整遮挡的时空模型,并通过自适应特征融合改善了复杂场景中的跟踪效果。

对于卡尔曼滤波器应用,文献[29]的作者使用了扩展卡尔曼滤波器(EKF)。其通过多模态传感器融合对周围目标的持续跟踪特别适合高速应用场景。这种自适应融合技术在平衡准确性和实时性能方面取得了良好结果。

文献[149]讨论了多分辨率特征融合判别相关滤波器(DCF)方法,深入分析了其对MOT性能的影响。其自适应多特征融合提高了MOT系统在不同场景中的鲁棒性。

文献[150]的作者引入了双流CNN和融合子网络,用于不同模态特征的语义指导融合。这种自适应融合技术在MOT和RGB-T跟踪中表现出色。文献[6]提出了一种多任务辅助学习框架,将RGB-T跟踪任务简化为实例分类任务,通过多模态多任务特征融合提高了MOT系统的性能。

3.3.3. 多模态数据类别及其融合方法

(1)RGB-D融合方法

RGB-D融合结合了传统的RGB图像和深度信息(D),利用RGB图像中的丰富纹理信息和深度传感器中的空间深度数据。这种融合有助于提高MOT模型对空间信息的理解以及MOT系统在复杂环境中跟踪多个目标的能力,尤其是在处理复杂场景或需要准确跟踪物体的深度信息时,解决诸如遮挡、不同尺度和不同运动模式等挑战。

例如,文献[151]中的作者通过结合基于图的端到端可学习方法,能够有效地执行3D多目标跟踪和室内环境重建。这种方法充分利用了RGB图像的丰富纹理信息和深度传感器的空间深度数据,从而提升了MOT系统对动态场景的理解和跟踪能力。

此外,文献[152]中的作者展示了如何将MOT紧密集成到立体视觉SLAM系统中,以便于立体和RGB-D摄像机。该算法通过实例化语义分割和ORB特征来跟踪动态对象,并共同优化场景和摄像机的结构。

文献[153]中的作者提出了一种新颖的方法,通过在图表示和时间线上进行联合重建和姿态估计,实现了在新合成的RGB-D图像数据集上更稳健且几何一致的MOT。

为了解决遮挡问题,文献[154]中的作者提出了一种基于粒子群优化的RGB-D 6自由度(DOF)MOT方法,并提出了一种包含3D坐标、颜色和法向量距离的新颖适应度函数。该函数使用从RGB-D传感器获得的3D场景信息来评估每个假设,使得该方法能够在多个应用场景中有效地跟踪具有6自由度的刚性3D目标。

文献[155]中的作者提出了一种框架,该框架利用RGB-D摄像机捕捉MOT中的感兴趣区域(ROI)。该框架结合了基于扩展卡尔曼滤波器(EKF)的模块,以动态更新移动目标的估计位置,从而在识别的感兴趣区域中提供更准确的MOT解决方案。

文献[156]中的作者在RGB-D数据领域引入了图形社会拓扑(GST)模型。该模型不仅动态捕捉了个体-群体拓扑的群体结构和状态,还通过整体状态转移自然地解决了遮挡问题,并在MOT和多模态融合方面取得了显著的改进。

文献[157]中的作者提出了一种实时MOT SLAM系统,适用于立体和RGB-D摄像机。该系统结合了深度图像的分割结果和运动目标判断策略,以实现MOT系统在复杂场景中的高性能。

文献[158]中的作者提出了一种基于视频摄像机和RGB-D摄像机组合的运动目标跟踪方法。该方法结合了Fast R-CNN和re-ID分支来检测对象。它构建了一个相似度矩阵,以计算目标与历史轨迹之间的数据关联,从而实现高性能的多目标识别和跟踪。

(2)RGB-T融合方法

RGB-T融合结合了RGB图像和热成像(T)。这种融合在低光或视线不良的环境中尤为有用,因为热成像可以提供在传统RGB图像中不可见的信息。这种融合技术着重于如何更充分地融合两种模态的信息,并最小化计算成本[159]。

文献[160]中的作者提出了一种属性驱动的表示网络,以提高RGB-T跟踪性能。该网络在通道和像素级别构建了针对每个目标的稳健残差表示,以适应属性无关的MOT过程。

文献[161]中的作者提出了一种基于互助线索学习的MOT架构。该架构包含一个轻量级的提示器,利用二维注意机制在两种模态之间传递信息,从而降低计算成本。

文献[162]中的作者提出了一种具有自适应模态权重和跨模态学习能力的相关滤波器,通过使用融合的模态作为联合学习一致性的中间变量,增强了MOT跟踪器的鲁棒性。

文献[163]中的作者提出了一种端到端跟踪框架,用于融合RGB和热成像模态。该算法通过主要组件(如特征提取器、目标估计网络和分类器)评估模态融合的有效性。

文献[6]中的作者提出了一种多任务辅助学习框架。该框架使用硬参数共享来共同训练多个任务。它引入了语义匹配,以减轻由于时间变化引起的模型漂移问题,从而使MOT在RGB-T场景中获得良好性能。

3.4. 嵌入方法、基于在线学习的深度学习方法和多模态融合方法的比较分析

在本节中,我们将对三种常用的实时多目标跟踪(MOT)技术进行比较分析,即嵌入方法、基于在线学习的深度学习方法和多模态融合方法。虽然这三种方法都利用深度学习技术来实现实时MOT,但它们在不同方面具有不同的优缺点,并存在一定的关系和联系。我们将分析和比较这三种方法,并探讨它们之间的联系。

嵌入方法和基于在线学习的深度学习方法是基于单模态信息的两种方法。它们的区别在于,嵌入方法在离线阶段训练深度神经网络,而基于在线学习的深度学习方法在在线阶段更新深度神经网络。因此,嵌入方法更适用于目标外观和场景变化较小的情况。而基于在线学习的深度学习方法则更适用于目标外观和场景变化较大的情况。嵌入方法的代表算法包括FAIR MOT,该算法能够利用大量标注数据学习稳健的嵌入向量,并避免复杂的数据关联算法。基于在线学习的深度学习方法的代表算法包括Deep SORT,该算法能够利用在线学习来适应目标外观的变化。嵌入方法的缺点在于需要预训练的检测器,并且对目标外观变化较为敏感。基于在线学习的深度学习方法的缺点是需要高效的在线学习算法。

嵌入方法和多模态融合方法是两种利用深度神经网络学习目标嵌入向量的方法。它们的区别在于,嵌入方法仅利用单一模态的信息,例如图像;而多模态融合方法则利用多种模态的信息,例如图像和语音。多模态融合方法的优点在于可以利用不同模态的互补特性来提高跟踪的准确性和鲁棒性,尤其是在目标遮挡或外观变化的情况下。多模态融合方法的挑战在于需要有效的多模态融合技术来解决模态间的异质性和不对齐问题。多模态融合方法的代表算法包括MMT,该算法结合了图像和语音模态的信息以实现MOT。

基于在线学习的深度学习方法和多模态融合方法是两种动态更新深度学习模型参数的方法。它们的区别在于,前者仅利用单一模态的信息,例如图像;而后者则利用多种模态的信息,例如图像和文本。多模态融合方法能够利用不同模态的互补特性来提高跟踪的适应性和鲁棒性,但也需要高效的多模态在线学习算法。多模态融合方法的典型代表是MOTR,该算法结合了图像和文本这两种模态的信息以实现多目标跟踪。MOTR的优点在于可以利用文本信息来指导图像信息,从而提高跟踪的适应性和鲁棒性,特别是在目标外观和场景变化的情况下。MOTR的缺点在于需要高效的多模态在线学习算法,以避免过拟合和漂移。

为了更直观地比较这三种方法的优缺点及代表算法,我们在表1中总结并对比了它们。表1中的“模态”指的是用于跟踪的信息类型,例如图像、语音、文本等;“训练模式”指的是深度学习模型的训练和更新时机,例如离线或在线。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值