JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset

最新推荐文章于 2023-07-21 09:13:03 发布

我想静静，

最新推荐文章于 2023-07-21 09:13:03 发布

阅读量1k

点赞数 2

分类专栏： 3d追踪文章标签：自动驾驶神经网络深度学习

本文链接：https://blog.csdn.net/weixin_42764932/article/details/120544018

版权

3d追踪专栏收录该内容

3 篇文章 0 订阅

订阅专栏

JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset

摘要:
INTRODUCTION
RELATED WORK
JRMOT
小结
数据集
- JackRabbot社交机器人
- Data Collection and Annotation
实验
- Results
- - KITTI Dataset
  - JRDB Dataset
REAL ROBOT EVALUATION
CONCLUSION AND FUTURE WORK

摘要:

自主导航的机器人需要感知和跟踪周围物体和其他代理的运动。这些信息使规划和执行可靠和安全的轨迹成为可能。为了促进这些过程，应该在三维笛卡尔空间中感知运动。然而，最近的多目标跟踪(MOT)研究主要集中在二维RGB视频序列中跟踪人和移动物体。

在这项工作中，我们提出了JRMOT，一种新的3D MOT系统，集成了来自RGB图像和3D点云的信息，以实现实时、最先进的跟踪性能。我们的系统是用最新的神经网络构建的，用于重新识别、2D和3D检测和轨迹描述，并结合到一个多模态递归卡尔曼体系结构中的联合概率数据关联框架中。

作为我们工作的一部分，我们发布了JRDB数据集，一个新颖的大规模2D+3D数据集和基准，注释了超过200万个盒子和3500个时间一致的2D+3D轨迹，跨越54个室内和室外场景。JRDB包含超过60分钟的数据，包括360圆柱形RGB视频和我们用于开发、培训和评估JRMOT的社交环境中的3D点云。提出的3D MOT系统在流行的2D跟踪KITTI基准测试的竞争方法中展示了最先进的性能，并为我们的基准测试提供了第一个3D跟踪解决方案。在我们的社交机器人JackRabbot上进行的实际机器人测试表明，该系统能够快速可靠地跟踪多个行人。我们在https://sites.google.com/view/jrmot提供我们追踪器的ROS代码。

INTRODUCTION

像移动机器人这样的自主代理需要在两个位置之间以安全、健壮的方式移动。为了安全导航，机器人需要感知周围多个动态物体和其他智能体的运动，如人、车等。这种感知到的运动允许代理预测其他代理未来可能的轨迹，并计划和执行将它们考虑在内的运动策略。

为了便于导航，其他agents的运动需要在导航发生的同一空间(3D笛卡尔空间)中被感知和表示。然而，机器人和计算机视觉社区的大部分都致力于多目标跟踪(MOT)系统的开发，该系统可以从RGB视频流感知2D运动。原因有两个。

首先，在这个搜索问题中，由于维数的原因，在3D中检测和跟踪目标在计算上比在2D中更昂贵。
其次，在人类环境中，导航机器人的视角下，缺乏足够的带有移动agents标注的大规模3D数据集，阻碍了深度学习技术在3D跟踪中的应用。

本文提出了一种基于三维笛卡尔空间的实时多目标检测与跟踪框架JRMOT。JRMOT通过使用2D信息约束3D搜索，有效地结合了来自RGB摄像机和激光雷达传感器的信息，从而检测和跟踪agent周围的多个目标。RGB图像和3D点云具有互补的信息。

一方面，RGB图像是密集的，这使我们能够辨别物体的外观，即使在很远的距离上也能有效地检测、识别和分类。它还以像素网格的形式构造，非常适合使用cnn等有效工具进行处理。
另一方面，三维点云数据是稀疏的，但深度信息允许我们分离可能在二维图像空间重叠的对象。然而，点云的无序结构不允许使用高效的算法架构，如cnn。

JRMOT通过以下三点，利用每个模态的信息(RGB的外观、点云的几何形状)来解决其他模态的缺点：

依次对其进行处理，来引导在RGB图像所指示的区域进行3D搜索
将它们的信息融合到一个多模态描述符中，以推动跟踪和数据关联
用一种新的多模态测量模型更新跟踪状态

JRMOT的核心是应用最先进的深度神经网络架构来检测RGB图像和3D点云中的感兴趣的目标，并使用新的多模态描述子来描述轨迹，从而提高成熟的数据关联和滤波技术的性能。训练这样的网络需要大量的2D RGB图像和3D点云，这些点云中感兴趣的物体位置的真值标签被标注出来了。

注释的数据应该从将要执行JRMOT的agent(即移动机器人)的角度获取。JRMOT是用一个新的多模态数据集——JRDB数据集——的标注数据来训练的。该数据集是从我们的社交自主agent ——JackRabbot的角度捕获的，他是一个史无前例的数据集，包括室内和室外场景，在2D RGB图像和3D点云中有超过420万个标注的边界框。这个数据集使我们的JRMOT模型能够利用2D RGB和3D点云数据的互补优势。

本文贡献如下：

我们提出了JRMOT，一种基于最新深度学习架构，融合了2D和3D信息的新型实时在线3D MOT系统。
我们发布了JRDB数据集和基准，这是第一个用于开发和评估2D-3D MOT框架和2D-3D人员检测的2D+3D数据集。JRMOT是在JRDB上开发和评估的，是第一baseline
我们展示了JRMOT在具有竞争力的KITTI 2D跟踪基准测试中实现了最先进的性能。
我们的测试也表明，我们的方法可以在移动机器人上有效地实时检测和跟踪，在超过100秒的实验中，只有很少的ID切换（ID switches）和一个单一的轨迹漏检（missed track）。我们提供JRMOT的ROS代码供其他研究人员测试和构建。

RELATED WORK

JRMOT

我们提出的融合2D和3D数据的3D MOT系统如图2所示。JRMOT通过检测执行跟踪。检测器块包含一个2D检测器、一个2D外观特征提取器和一个3D检测器(也生成一个3D特征描述符)。检测器块以2D RGB图像和对应的点云作为输入，生成所有感兴趣的物体的2D和3D检测，以及它们的2D和3D特征描述符。然后将其传递给跟踪块，跟踪块执行数据关联以及多模态贝叶斯过滤。我们系统的输出是所有跟踪对象在3D空间中的位置，每个对象都通过轨迹ID进行唯一标识。我们假设RGB相机和深度传感器之间的外部标定已知。现在我们详细解释每个组件。

在这里插入图片描述
T、D、F分别表示轨迹、检测、特征

a. 2D Detection

首先，我们的系统需要检测环境中感兴趣的对象的所有移动实例。虽然我们对3D位置感兴趣，但2D探测器比3D探测器[23]更快、更健壮、更准确。因此，我们使用最先进的图像分割(Mask R-CNN[24])或目标检测器(YOLO[25]修改为实时)架构作为我们的检测器。该模块的输入是t时刻的2D RGB图像，输出是一组N个2D检测 $\mathcal{D}_{t}^{2 D}=\left\{(u, v, w, h)_{0}, \ldots,(u, v, w, h)_{N-1}\right\}_{t}$ ，其中 $u, v)_i$ 是左上角坐标， $w, h)_i$ 是宽高。

现有的预训练模型已经用不同类型的图像进行了训练，但不是我们的机器人在导航过程中遇到的图像。我们利用我们的JRDB数据集来微调网络，并使它们适应社会导航setup1的特殊数据分布。

b. 2D Appearance

上一步的检测需要和JRMOT中已存在的轨迹相关联。为此我们需要对所有检测和轨迹的2d外观进行特征描述，以便后续比较特征并将他们关联起来。

当感兴趣的对象是人时，我们计算AlignedReID [26]（行人重识别）特征，当感兴趣的对象是车辆时，我们计算Wu等人[27]特征（车辆重识别）。这些特征的选择是基于它们的高分辨能力和快速计算时间。

所有的特征都在JRDB上训练。本模块输入是某时刻的2d图像和上一步生成的N个检测结果，输出是他们的2D外观特征 $\mathcal{F}_{t}^{2 D}=\left\{f_{0}^{2 D}, \ldots, f_{N-1}^{2 D}\right\}_{t}$ 。

c. 3D Detection and Appearance

如前所述(第二章)，可以从被检测对象的2D检测框中获得被检测对象的3D位置的带噪估计。然而，在这项工作中，我们建议集成2D RGB图像和由深度传感器提供的3D数据（这是大多数自主导航系统的一个常见部分）。

我们使用F-PointNet[28]，这是一种最先进的算法，在每个对象实例的周围以一个有向长方体的形式获得每个2DBBX的3D检测。F-PointNet估计该物体在截锥体（从RGB摄像机中心开始，并通过图1所示的2D边界框）内的一个3D边界框。
在这里插入图片描述
我们选择F-PointNet是因为它明确地给了我们每个2D和3D边界框之间的关联，它利用了2D检测器的鲁棒性，它有一个相对较快的推断时间，它已经被证明是在KITTI基准上表现最好的3D检测器。

3D检测模块的输入是在t时刻，感兴趣的实例周围被检测的2Dbbx集合 $\mathcal{D}_{t}^{2 D}$ ，以及最接近时间t处的3D点云。输出是在时间t时，感兴趣的类别的一组M个3D检测目标： $\mathcal{D}_{t}^{3 D}=\left\{(x, y, z, w, h, l, \theta)_{0}, \ldots,(x, y, z, w, h, l, \theta)_{M-1}\right\}_{t}$

$x,y,z)_j$ 是在实例 $j$ 周围检测到的3Dbbx的底面的中心， $w, h, l)_j$ 是bbx的宽高长， $\theta_j$ 是bbx围绕水平面的法线的旋转。

此外，我们利用F-PointNet架构来生成被检测对象形状的特征描述： $\mathcal{F}_{t}^{3 D}=\left\{f_{0}^{3 D}, \ldots, f_{M-1}^{3 D}\right\}_{t}$

F-PointNet倒数第二层的特征用于回归三维bbx，从而包含了物体的三维形状信息。我们使用这个特性作为3D外观(形状)描述符。注意，并不是每个3D检测都有一个相关的2D检测。F-PointNet可能没有在每个截锥中找到一个合理的边界框。我们的系统解释了这种情况，如g所述。

d. Feature Fusion

由于2D和3D检测的耦合，每个感兴趣的对象现在都有一个2D特征描述符和一个3D特征描述符。根据不同的条件(距离、能见度、遮挡)，2D和3D外观特征都可能包含有价值的信息，以关联检测结果和以前的轨迹。

因此，我们将二维和三维特征融合到一个3层的全连接网络中，该网络接收输入 $\mathcal{F}_{t}^{cat}$ ， $\mathcal{F}_{t}^{cat} =\left\{\left[f_{0}^{2 D}, f_{0}^{3 D}\right], \ldots,\left[f_{M-1}^{2 D}, f_{M-1}^{3 D}\right]\right\}_{t}$ 其中 [] 表示级联。

我们通过基于triplet loss和semi-hard negativemining的度量学习训练融合网络，从而产生新的检测和之前轨迹之间关联的鲁棒特征。

e. Data Association

给定时间t的一组检测，我们需要将它们与t−1时刻的轨迹关联起来，以更新轨迹的位置和外观。为了做到这一点，我们利用了JPDA[30]，正如[6]所证明的那样，它对杂波具有鲁棒性，并减少了ID switches的发生。

JPDA需要一个cost矩阵 $\in R^{K \times N}$ ，其中每个元素 $c_{i,j}$ 表示轨迹 i 匹配到检测 j 的代价。我们利用外观和三维空间位置来关联对象。

首先通过计算检测结果的N个特征与轨迹的K个特征之间的两两 L2 距离来计算外观相似度，并建立外观代价矩阵 $C_{app}\in R^{K \times N}$
然后，我们假设两个三维BBX具有相同的方向(相同的θ)，通过计算两个三维BBX的IoU来计算位置相似度，这种近似方法在较短的计算时间内产生了较好的结果。得到了IoU代价矩阵 $C_{IoU}\in R^{K \times N}$
为了简化关联，我们使用带有固定阈值（0.95 quantile from the χ2 distribution）的马氏距离执行门控。
由于代价矩阵的大小与场景中对象数量的平方成比例，与整个代价矩阵相关联会导致计算缓慢。因此我们构造了一个无向图，其中每一个跟踪和检测都是一个节点，如果检测 j位于跟踪 i 的gate内，则在跟踪i和检测j之间存在一条边。图中每一个连通的分量都是一个聚类。我们在每个集群的基础上执行进一步的处理，从而大大降低了计算时间。
由于JPDA需要一个代表关联成本的成本矩阵，我们基于熵度量执行成本矩阵选择(IOU vs. appearance)。我们选择每个track 熵较低的代价矩阵。熵代价矩阵越低，代价矩阵越多
’ peak '，因此更具有辨别能力。
给定选定的成本矩阵，我们执行JPDA。为了保持跟踪器的速度，我们对大的clusters采用m-最佳解近似[31]。对于较小的clusters，采用完全枚举的方法得到JPDA的精确解。

为了处理对象具有2D检测，但没有相应的3D检测的情况，我们使用了两个步骤的过程:

在第一步中，所有包含2D和3D检测的测量都使用上述程序与tracks相关联。
然后我们进行第二轮成本矩阵选择、gating和JPDA，现在仅基于2D特征描述符的外观成本矩阵，以及使用2D IoU计算的IoU成本矩阵。

f. Filtering

2D和3D检测通常是有噪声的。因此，我们用卡尔曼滤波器[32]随时间对它们进行滤波，以估计平滑的3D轨迹。卡尔曼滤波器是一种最优估计(假设高斯噪声和运动的线性)和一个在线的、计算效率高的过程，使JRMOT是准确和实时的。

估计每个物体的状态包括它的三维位置：x, y, z；它的维数近似为一个三维bbx：l, w, h；和bbx绕垂直轴的旋转：θ。因为在大多数场景中，物体沿着水平轴X和Z移动，并且它们的方向变化非常小，所以我们只沿着X和Y轴(vx和vy)分别跟踪速度。因此，每个对象O的状态为 $\mathbf{\mathbf { x }}^{\bar{O}}=\left\{x, y, z, l, h, w, \theta, v_{x}, v_{z}\right\}^{O}$

我们采用独立的用卡尔曼滤波对每个目标的匀速运动模型进行预测。

为了利用检测和多模态(2D和3D)传感器源的联合特性，我们使用了双重测量更新。每个轨迹都有两个测量源，2Dbbx，以及我们假设是独立的3Dbbx，尽管这不是严格的情况。

我们结合第一个基于3D测量的PDA[33]卡尔曼滤波更新，与第二个基于2D测量的PDA扩展卡尔曼滤波(EKF)更新。第一个线性测量更新作为主要成分，携带大部分信息，其中二维测量作为微调测量校正。

对于那些没有相应的3D检测的2D检测，我们只根据二维测量PDA更新tracks。

g. Track Management

创建和终止tracks：

当一个新物体进入场景时，只有当它在所有现有tracks的gate外时，新的track才会被初始化。在这种情况下，我们创建一个临时track(不是JRMOT输出的一部分)，只有在连续匹配了 $n_{init}$ 次之后，我们才将它提升为完整track。这个过程减少了噪音，避免了误报。
此外，如果没有连续 $n_{term}$ 帧的匹配检测，我们将终止跟踪，认为物体离开场景。

更新轨道的外观：

在每一步，我们用最新的RGB和点云信息更新轨道的外观，以便于在下一步进行关联。为此，我们需要将每个最后的检测只关联到一个轨道。然而，JPDA提供了轨道和探测之间关联的完整概率分布。因此，我们使用匈牙利算法对JPDA输出执行线性和分配，以 $p_{assn}$ 作为考虑匹配的最小概率。这个过程提供了一对一的关联，允许我们用指定的最佳检测更新每个轨道的特征描述符。如果一个轨道没有被分配检测，它的特征就不会被更新。

小结

用JRDB微调训练好的Mask R-CNN或YOLO，在某时刻，输入2d的RGB图，输出一组2d检测框；
利用在JRDB上训练的行人重识别网络和车辆重识别网络，对2d检测目标提取特征，此处不够通用；
以点云、2dbbx为输入，利用F-PointNet回归出点云实例的3dbbx，以及外观特征；
将2d特征与3d特征级联，利用tripleNet训练特征融合网络，获得融合特征；没明白tripleNet和融合有啥关系？
构造 appearance 和 3D IoU 两个 cost matrix，通过一种 entropy measure 的方法来选择我需要哪个 cost matrix，对每一个 track 的 gating 范围内的 detection 进行 JPDA 式的关联？没懂
利用卡尔曼滤波对轨迹进行平滑，研究研究
更新轨迹的特征

数据集

如第二节所述，具有3D数据类型的数据集以及开发和训练3D所需的标注的MOT系统很少，主要集中在自动驾驶场景：从导航机器人的角度来看，在社会环境中需要具有3D注解的新型数据集。我们提出了一个新的人类社会环境数据集JRDB。

我们的数据集包含64分钟的传感器数据，这些数据来自我们的移动机器人JackRabbot，包括54个序列，在大学校园的室内和室外环境中。下面总结了数据集的数据收集和标注过程。

JackRabbot社交机器人

JRDB是一个多模态数据集，由我们的移动式机械手JackRabbot上的传感器收集。
JackRabbot是一个定制设计的机器人平台，可以在人类环境中导航和互动。它配备了最先进的传感器套件，包括立体RGB360cylindrical video streams(由5个相机排成一行组成图像)，来自两个16线激光雷达传感器的3D点云，前和后单线激光雷达点云，RGB-D和360◦球形头部摄像头的RGB图像，音频，IMU和GPS传感。图3a描绘了JackRabbot及其机载传感器。我们的目标是通过JackRabbot研究和开发人类与机器人之间的感知和高级社交互动的新解决方案。

Data Collection and Annotation

为了生成JRDB，我们收集了30个不同地点的室内和室外数据，这些地点都位于大学校园环境中，环境条件如光照和其他自然和动态元素都是变化的和不受控制的。我们还确保记录的数据捕捉了不同人群密度下人类自然姿势、行为和社会活动的变化。此外，为了在机器人的自我动作中加入多样性，我们使用静态和移动传感器(机器人)视图的组合来捕获数据。

开发社交自主导航代理的一个关键组成部分是感知和理解人类在机器人周围的位置和动作。因此，在第一轮注释中，我们专注于检测和跟踪人类。我们在JRDB中包含以下ground truth标签:

超过240万二维包围盒的人/行人类在两个单独的RGB图像和两个组成圆柱形360◦图像
两个16线激光雷达传感器在点云中为人类/行人类提供超过180万个3D方向的bbx
对应的2D和3D之间的空间ID关联bbx
在2D和3D中，所有标注的行人的时态ID与时间一致的身份关联。

图3b描述了JRDB的例子和注释的地面真相标签上的RGB 360◦圆柱形图像和3D激光雷达点云，从RGB图像的信息着色。有了这个独特的数据集，我们希望促进和实现社交导航自主代理的新研究。未来，我们将在JRDB中添加与人类环境中的社会理解相关的额外注释，如2D人类骨骼姿势和个人、群体和社会活动。

实验

我们在评估中采用了Clear-MOT标准[35]，包括精度(MOTA)、精度(MOTP)、ID开关数量(IDS)以及运行时间，因为我们的目标是开发一个在线实时MOT系统。然而,Clear-MOT度量是为2D跟踪而开发的，例如，轨迹被指定为假阳性的真值，基于IoU在RGB图像的估计和地面真值2Dbbx之间。在结合Sutherland-Hodgman算法[36]和高斯面积公式计算三维IoU的基础上，我们将这些定义扩展到三维。

我们的目标是开发一个实时在线MOT系统，用于在人类环境中导航机器人。因此，我们在新的JRDB数据集(3D)和完善的KITTI数据集[37]上评估JRMOT。KITTI数据集包含2D RGB图像和3D点云，但基准仅报告2D ClearMOT度量的2D跟踪结果。虽然JRMOT是一个3D MOT系统，但在KITTI上进行评估可以让我们与现有的跟踪方法进行比较。

为了能够在KITTI上评估JRMOT，我们修改了Sec2中提出的系统，将滤波器结构中的状态更改为{x, y, w, h, vx, vy}，其中x, y, w, h参数化2D边界框，vx, vy给出2D图像中的速度。JRDB数据集和基准包含RGB和点云输入，groundtruth行人的3D包围盒和我们使用的3D跟踪评估脚本。我们将JRMOT的结果与最先进的基线AB3DMOT[12]在人员跟踪上进行了比较。我们选择AB3DMOT作为基线，因为它是一个实时的、在线的跟踪器，并且有可用的开源代码。在提交的时候，没有其他开源的在线3D MOT系统可用。

为了提供可比较的结果，我们的目标是对所有方法使用相同的检测输入。对于KITTI数据集，我们只对汽车和行人挑战使用公开可用的检测。对于JRDB，我们对所有方法使用相同的Mask-RCNN检测集。我们选择的针对KITTI的公开检测是针对汽车的RRC[38]检测和针对行人的SubCNN[39]检测。
对于我们在JRDB上评估AB3DMOT，这需要3D检测作为输入，我们使用FPointNet的3D检测，这是我们的跟踪系统生成的副产品。

在这里插入图片描述

Results

KITTI Dataset

表1显示了我们在汽车跟踪挑战中的结果。我们达到了最先进的性能(MOTA最高)。我们的MOTP在领先者的0.5%以内，在ID转换方面我们是第二，并以相当大的差额击败所有其他顶级提交。
在这里插入图片描述

表II显示了我们在行人跟踪挑战中的结果。在竞争的实时方法(计算时间小于0.1s)，我们的跟踪排名第二。
在这里插入图片描述
只有一种方法使用与我们的方法相同的检测方法。我们仍然在1.5%的MOTA范围内，而运行只有1/15的时间。我们方法中的性能增益是融合并充分利用2D RGB和3D点云信息中的互补信息的结果。

需要注意的一点是JRMOT的IDS更高。我们发现，优化MOTA降低了FN，代价是更高
IDS。此超参数优化仅针对于KITTI行人跟踪，如表1所示，其中我们的方法达到了第2低的IDS。

尽管我们的方法是为3D MOT开发的，但JRMOT在KITTI基准测试中是最先进的2D MOT系统之一，这表明了我们提出的方法的好处，并验证了系统的有效性.

JRDB Dataset

JRMOT优于基线AB3MOT，在JRDB基准测试中，在25帧时有20.2%的MOTA(相比之下AB3MOT只有19.3%的MOTA)。这些MOTA值表明，我们的数据集中的场景是极具挑战性的，并将指导该领域的新研究。基于我们的方法在测试集上的765,907个假阴性，我们推断3D检测是我们跟踪系统的限制因素。

结合2D和3D信息的JRMOT方法的好处是，对于距离传感器相对较远的轨迹来说更加清晰，其中3D点可以数据是稀疏的，但2D RGB是一个丰富的信息源 。为了验证这一点，我们将结果作为轨道与机器人之间距离的函数进行分析。尽管MOTA在所有距离上保持相当相似，但我们的方法优于基线，我们进行以下观察：

首先，我们观察到，我们的假设2D数据有助于改善3Dbbx的方向，并对位置进行微调，这在图4中得到了验证。可以看出，随着与机器人距离的增加，AB3DMOT的MOTP衰减相当大，而我们的方法在所有距离范围内都是一致的。此外，我们的方法减少了30%的ID切换。这表明，我们的方法能够在所有距离上为每个人分配一个一致的track ID，比AB3DMOT要好得多。

在这里插入图片描述
比较JRMOT和AB3DMOT作为距离的函数。a) JRMOT获得更高的MOTP，这是由于在所有距离上更准确地估计bbx的方向和细粒度的位置信息。b)我们的方法IDS也更少(越低越好)，表明在所有距离上跟踪都更加稳健稳定

此外，我们通过一组关于JRDB数据集的消融研究，分析了单个组件在JRMOT总体性能中的贡献。

首先，我们进行了一个实验，只使用2D测量数据更新轨迹。正如预期的那样，我们观察到3D信息是3D跟踪最关键的: 在没有3D数据的情况下，我们在列车上获得 - 20.1%的MOTA。

我们还分析了二维RGB外观特征的贡献，仅使用三维IoU作为关联度量。在这种情况下，我们看到了0.1%的MOTA性能的小下降。

这表明3D IoU是最有信息的关联度量，但在某些情况下，2D外观略有改进。

我们最后的消融是验证没有相应的3Dbbx的2D输入确实是MOT系统中有用的测量。我们观察到，如果我们不使用这些仅2d的更新，MOTA保持在42.9%不变，但MOTP下降了0.6%。因此，2D的总体贡献是0.1% MOTA和0.6% MOTP。

然而，这是误导，因为大量的物体靠近传感器，二维信息并没有多大帮助。

在15-20m范围内，通过使用2D信息(外观和测量)增加的MOTA为1.3%。这证实了我们的直觉，2D测量可以用于跟踪的方向和位置，特别是远离机器人的位置。

这证实了我们的直觉，2D测量可以用于跟踪的方向和位置，特别是远离机器人的位置。

REAL ROBOT EVALUATION

最后，我们评估了JRMOT在实际机器人平台上运行时的性能。我们测试了我们的社交机器人JackRabbot，它被用来收集JRDB数据集。我们选择在收集JRDB数据集所有数据的同时不运行JRMOT，因为这是不可能的，因为计算限制(记录图像和点云大大降低了跟踪性能)。因此，我们无法计算MOTA和在机器人上实时运行时对标注的数据进行MOTP处理;我们转而分析数量(ID开关)，以及丢失轨迹的数量。

我们在三种不同的物理环境中测试我们的解决方案，不同的照明条件(日光和室内照明)，固定和移动的机器人，以及不同数量、距离和移动的人的轨迹。实验设置的可视化如图5所示。我们评估了所有场景中包含14个独特身份的110个数据。在机载计算机上，JRMOT运行在9-11帧/秒之间，我们测量到只有4个IDS和1个轨迹丢失。这些初步结果，以及在KITTI和JRDB上的广泛积极结果，表明我们的跟踪器提供了信息，以支持人类环境中的自主导航。我们将我们的代码作为ROS包公开提供给社区。
在这里插入图片描述

我们在3个不同的场景中进行了机器人实验，如上所示，在不同的距离(1 - 10米)，不同类型的人类轨迹上，有不同数量(1 - 7)的人(移动和静止)，和JackRabbot移动和静止。我们的目标是在不同的现实环境中进行实验。上面的图片描述了我们的实验设置。

CONCLUSION AND FUTURE WORK

我们提出了JRMOT，一种新型的3D MOT系统，它以一种高效的方式融合了包含在2D RGB图像和3D点云中的信息，即使在竞争激烈和高度拥挤的环境中，也能在实时运行的情况下提供鲁棒的跟踪性能。

作为项目的一部分，我们发布了JRDB数据集，这是一个用于2D和3D MOT评估和开发的新数据集，包含在人类环境中获取的多模态数据，包括在大学教学楼和校园步行区，以及机器人在人群中导航的场景。数据集上标注了场景中所有人的地面真值二维边界框和相关的三维长方体，这将有助于未来的二维和三维MOT研究。

我们用JRMOT建立了一个强大的3D MOT基线。JRMOT在著名的KITTI 2D MOT基准测试中达到了最先进的性能，并在我们提供的JRDB数据集中显示了比现有的3D MOT系统更好的性能。我们还在机器人上进行了初步的实验，验证了JRMOT在现实世界中的有效性。JRMOT作为一个有竞争力的基准，鼓励在利用多模态传感器测量的范例中进一步研究，以更好地执行3D MOT。

我想静静，

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset

JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset摘要:INTRODUCTIONRELATED WORKJRMOTa. 2D Detectionb. 2D Appearancec. 3D Detection and Appearanced. Feature Fusione. Data Association小结摘要:自主导航的机器人需要感知和跟踪周围物体和其他代理的运动。这些信息使规划和执行可靠和安全的轨迹成为
复制链接

扫一扫

专栏目录