ICCV:Robust Multi-Modality Multi-Object Tracking鲁棒多模态多目标跟踪

                             **有的部分加入了自己的理解,难免有误。**

!!原文信息,侵删!!

在这里插入图片描述

摘要

多传感器感知是自动驾驶系统可靠性和准确性的关键,而多目标跟踪任务(MOT)通过追踪动态目标的序列运动确保其可靠性和准确性。最近在多传感器MOT任务上取得的成果要么依赖于单一的输入源导致可靠性不高,要么在后续处理中不能充分融合多个传感器的固有信息导致准确性不高。在本文的研究中,我们设计了一个通用的传感器不可知的多模态MOT框架(mmMOT),该框架下每个模态(即传感器提供的信息)能够独立地表现其特征并以此确保可靠性及通过奇妙的多模态融合模块进一步提高精度。我们的mmMOT可以被端对端地训练,能够对各个模态的特征提取器和交叉模态的邻接估计器( adjacency estimator)进行联合优化。我们的mmMOT也是第一次试图对数据关联过程中的点云的深度表示进行编码。实验在KITTI标准上有牛逼的表现,代码和模型在这里下载(虽然现在还没得下)。

1.介绍

可靠性和准确性是自动驾驶系统的两个基本需求。动态对象的感知对自动驾驶任务来说是很要命的。为了提高可靠性,使用多模态传感器提供松散耦合的独立的线索防止如图1a所示的故障(对于可靠性:过度曝光或运动导致相机失真)。为了提高准确性,合并多目标跟踪中的序列信息,并且更好的多传感器提供的信息可以加强最后的得分,如图1b所示(对于准确性:多传感器信息可增强感知能力)。本文中,我们提出多模态多目标跟踪框架,该框架通过神奇的多传感器融合模块提高准确性,通过“引导注意的”(attention guided)多模态融合机制提高精度
传统的方法设计多模态MOT框架时,保证其可靠性和准确性是十分重要的。大多传统方法使用相机,激光雷达或雷达与‘手工制作的,且被卡尔曼滤波器或贝叶斯框架混合的,特征。它们的准确性被手工制作的特征的表达能力所限制。另一种方法是使用深度特征提取器,这种方法能够显著提高准确率。不过他们侧重于图像级别的深度特征表示以关联目标轨迹,并且只在目标检测阶段使用雷达。这种“捆绑”的方法在相机失灵(比如过曝时)时无法确保可靠性。
在这项工作中我们设计了一种能够扩展到相机、激光雷达和雷达的多模态MOT框架。首先在多传感器信息提取和融合的过程中,使用稀松耦合方案,保证系统的可靠性。具体描述为:从每个传感器中独立提取多模态特征,然后通过融合模块融合这些特征,再传递给邻接估计器,该估计器能够根据每个模态进行推理。其次为了网络能够同时从不同模态进行推理,我们的mmMOT采用端对端的训练,这使得多模态特征提取器和跨模态邻接估计器可以同时优化。最后我们首次尝试将点云的深度表示引入MOT数据关联过程,取得了很好的效果。
简而言之,我们主要有三点贡献:
1.提出了一个带有鲁棒融合模块的多目标跟踪框架,该鲁棒融合模块利用多模态信息提高可靠性和准确性。
2. 提出了一个奇妙的端对端的训练方法实现了跨模态推理的联合优化。
3. 首次将点云的深度特征引入跟踪并获得比较屌的效果。


2.相关工作

多目标跟踪框架

关于MOT的最新研究主要遵循tracking-by-detection模式,其中感兴趣目标由检测器检测然后通过数据关联链接到轨迹。数据关联问题可以从不同角度来解决,比如最小成本流( min-cost flow)、马尔可夫决策过程(MDP)、部分滤波(partial filtering)、匈牙利分配(Hungarian assignment)、图割(graph cut)。然而这些方法大多不是端到端训练的因此许多参数是启发式的(如weight of cost )并且容易受到局部最优的影响。
为了在最小成本流框架下实现端对端的学习,Schulter等人通过平滑化线性规划应用双层优化并且深度结构模型使用hinge loss,然而他们的框架并不是为了交叉模态设计的。我们通过邻接矩阵学习来解决这个问题。
除了不同经典的数据关联方式,相关特征也被广泛应用于确定检测结果之间的关系。当前以图像为中心的方法主要使用图像块的深度特征。手工特征偶尔被用于辅助输入,包括但不限于 bounding box,几何信息,形状信息和时间信息。三维信息也是有用的,因此通过3D检测的预测或使用神经网络或几何先验的RGB图像的估计来利用3D信息。Osep等人将来源于RGB图像、立体声、视觉里程计和可选场景流的信息融合,但是他们的工作中不能进行端对端的训练。所有上述方法必须与相机一起工作,因此缺乏可靠性。相比之下我们的mmMOT独立地从每个传感器中提取特征(图像的深度特征和点云的深度表示),并且每个传感器有相同的重要性并且它们是可分离的。同时我们提出的注意引导融合机制进一步提高了准确性。

点云的深度表示

点云在跟踪上的传统用法是测量距离、提供2.5D网格表示或派生一些手工特征。他们都没有充分利用点云的内部信息来解决数据关联问题。最近的研究已经证明了在自动驾驶中使用3D点云作为感知特征很有价值。为了学习点云的较好的深度表示,PointNet 和PointNet++ 使用对称函数处理原始的非结构化点云。我们在我们的框架中使用了这种方法。其他研究,如PointSIFT提出了一种方向编码单元来学习点云的S

  • 5
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值