文献阅读日常——uber 3D detection -Fast and Furious: Real Time End-to-End 3D Detection

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net
https://arxiv.org/abs/2012.12395v1

文章目的:

利用三维传感器捕捉的时空信息进行三维检测、跟踪和运动预测。作者认为这很重要,因为跟踪和预测可以帮助目标检测。
①在处理遮挡或遥远的对象时,利用跟踪和预测信息可以减少检测误报。
②随着时间的推移,证据的积累也可以减少错误。
③它在所有这些任务之间共享计算。这对自动驾驶来说非常重要,因为延迟可能是致命的。

原因及意义:

传统的方法通常把自动驾驶问题分为四个步骤:检测、目标跟踪、运动预测和运动规划。通常使用级联方法,检测器的输出作为跟踪器的输入,它的输出被反馈给一个运动预测算法,该算法可以估计交通参与者在接下来几秒钟的移动方向。然后将这些数据反馈给运动规划器,由它来估计自我汽车的最终轨迹。这些模块通常是独立学习的,不确定性通常很少传播。这可能会导致灾难性的失败,因为下游流程无法从管道开始时出现的错误中恢复

这样的整体方法对遮挡以及距离上的稀疏数据更有鲁棒性。该方法在3D世界的鸟瞰图上执行跨空间和时间的3D卷积,这在内存和计算方面都非常有效。我们在北美几个城市的大规模数据集上进行的实验表明,我们可以在很大程度上超越最先进的技术。重要的是,通过共享计算,可以在30毫秒内完成所有任务

方法

简介

设计一个单级检测器,以多个连续时间帧创建的4D张量作为输入,并在空间和时间上进行3D卷积提取准确的3D包围盒。我们的模型不仅产生当前帧的边界框,而且还产生到未来的多个时间戳。我们通过一个简单的池操作,结合过去和当前预测的证据,从这些预测解码tracklet

目标跟踪

这部分现有的大部分是二维图像上的工作

运动预测

运动预测:这是在给定多个过去帧的情况下预测每个对象在未来的位置的问题。Lee等人[14]提出使用递归网络进行长期预测。Alahi et al.[1]使用LSTMs对行人之间的交互作用进行建模,并进行相应的预测。Ma等人[19]提出利用博弈论的概念来建模行人之间的交互,同时预测未来的轨迹。一些工作也集中在动态对象的短期预测上[7,22]。[28]使用变分自编码器对密集像素的短期轨迹进行预测。[26, 20]专注于预测给定视频的下一帧,而没有明确地对每像素的运动进行推理。

为了进行运动预测,考虑时间信息是至关重要的。
为了达到这个目标,我们从过去的n帧中取所有的3D点,并执行一个坐标改变来代表当前车辆的坐标系统。
以沿着一个新的时间维度添加多个帧来创建一个4D张量。这不仅提供了更多的三维点作为一个整体,而且还提供了关于车辆的方向和速度的线索,使我们能够进行运动预测。如图3所示,出于可视化目的,我们叠加了多个帧,静态对象被很好地对齐,而动态对象有代表其运动的“阴影”。

我们的第一种方法在第一层聚合时间信息。因此,它的运行速度与使用单帧检测器一样快。然而,它可能缺乏捕捉复杂时间特征的能力,因为这相当于从所有帧生成单个点云,但不同时间戳的权重不同。特别地,如图4所示,给定一个4D输入张量,我们首先在时间维上使用核大小为n的一维卷积,将时间维数从n降至1。我们在所有特征图之间共享权值,也称为群卷积。然后我们按照VGG16[25]进行卷积和最大池化,每层特征图数量减少一半。注意,我们在VGG16中删除了最后一个卷积组,结果只有10个卷积层。

在这种情况下,我们逐渐合并时间信息。这允许模型捕捉高层次的运动特征。我们使用与早期融合模型相同数量的卷积层和特征映射,但在不填充时间维的情况下,对2层进行核大小为3 3 3的三维卷积,将时间维从n降至1,然后执行
其他层的核大小为33的二维空间卷积。我们让读者参考图4来说明我们的架构。

然后我们添加了两个卷积层分支,如图5所示。第一个进行二元分类,预测成为车辆的概率。第二个预测了当前框架上的边界框以及n个n-1框架到未来的边界框。运动预测是可能的,因为我们的方法利用多帧作为输入,从而可以学习估计有用的特征,如速度和加速度。

在训练时,我们使用尺寸为144 80米的空间X-Y区域,其中每个网格单元为0:2 0:2米。在高度维度上,我们从-2米到3.5米,间隔0.2米,导致29个箱子。对于时间信息,我们从过去的5个时间戳中获取所有的3D点。因此,我们的输入是一个由时间、高度、X和y组成的四维张量。对于我们的早期融合和后期融合模型,我们都使用亚当优化器[13]从零开始训练,学习率为1e-4。模型在批量大小为12的4 Titan XP GPU服务器上训练。我们对模型进行100K迭代训练,60K和80K迭代学习率分别减半。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值