文献阅读日常——uber 3D detection -Fast and Furious: Real Time End-to-End 3D Detection

星禾说

于 2021-12-23 12:24:28 发布

阅读量216

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/cindy9608/article/details/120302171

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net
https://arxiv.org/abs/2012.12395v1

文章目的：

利用三维传感器捕捉的时空信息进行三维检测、跟踪和运动预测。作者认为这很重要，因为跟踪和预测可以帮助目标检测。
①在处理遮挡或遥远的对象时，利用跟踪和预测信息可以减少检测误报。
②随着时间的推移，证据的积累也可以减少错误。
③它在所有这些任务之间共享计算。这对自动驾驶来说非常重要，因为延迟可能是致命的。

原因及意义：

传统的方法通常把自动驾驶问题分为四个步骤:检测、目标跟踪、运动预测和运动规划。通常使用级联方法，检测器的输出作为跟踪器的输入，它的输出被反馈给一个运动预测算法，该算法可以估计交通参与者在接下来几秒钟的移动方向。然后将这些数据反馈给运动规划器，由它来估计自我汽车的最终轨迹。这些模块通常是独立学习的，不确定性通常很少传播。这可能会导致灾难性的失败，因为下游流程无法从管道开始时出现的错误中恢复。

这样的整体方法对遮挡以及距离上的稀疏数据更有鲁棒性。该方法在3D世界的鸟瞰图上执行跨空间和时间的3D卷积，这在内存和计算方面都非常有效。我们在北美几个城市的大规模数据集上进行的实验表明，我们可以在很大程度上超越最先进的技术。重要的是，通过共享计算，可以在30毫秒内完成所有任务。

方法

简介

设计一个单级检测器，以多个连续时间帧创建的4D张量作为输入，并在空间和时间上进行3D卷积，提取准确的3D包围盒。我们的模型不仅产生当前帧的边界框，而且还产生到未来的多个时间戳。我们通过一个简单的池操作，结合过去和当前预测的证据，从这些预测解码tracklet。

目标跟踪

这部分现有的大部分是二维图像上的工作

运动预测

运动预测:这是在给定多个过去帧的情况下预测每个对象在未来的位置的问题。Lee等人[14]提出使用递归网络进行长期预测。Alahi et al.[1]使用LSTMs对行人之间的交互作用进行建模，并进行相应的预测。Ma等人[19]提出利用博弈论的概念来建模行人之间的交互，同时预测未来的轨迹。一些工作也集中在动态对象的短期预测上[7,22]。[28]使用变分自编码器对密集像素的短期轨迹进行预测。[26, 20]专注于预测给定视频的下一帧，而没有明确地对每像素的运动进行推理。

为了进行运动预测，考虑时间信息是至关重要的。
为了达到这个目标，我们从过去的n帧中取所有的3D点，并执行一个坐标改变来代表当前车辆的坐标系统。
以沿着一个新的时间维度添加多个帧来创建一个4D张量。这不仅提供了更多的三维点作为一个整体，而且还提供了关于车辆的方向和速度的线索，使我们能够进行运动预测。如图3所示，出于可视化目的，我们叠加了多个帧，静态对象被很好地对齐，而动态对象有代表其运动的“阴影”。

我们的第一种方法在第一层聚合时间信息。因此，它的运行速度与使用单帧检测器一样快。然而，它可能缺乏捕捉复杂时间特征的能力，因为这相当于从所有帧生成单个点云，但不同时间戳的权重不同。特别地，如图4所示，给定一个4D输入张量，我们首先在时间维上使用核大小为n的一维卷积，将时间维数从n降至1。我们在所有特征图之间共享权值，也称为群卷积。然后我们按照VGG16[25]进行卷积和最大池化，每层特征图数量减少一半。注意，我们在VGG16中删除了最后一个卷积组，结果只有10个卷积层。

在这种情况下，我们逐渐合并时间信息。这允许模型捕捉高层次的运动特征。我们使用与早期融合模型相同数量的卷积层和特征映射，但在不填充时间维的情况下，对2层进行核大小为3 3 3的三维卷积，将时间维从n降至1，然后执行
其他层的核大小为33的二维空间卷积。我们让读者参考图4来说明我们的架构。

然后我们添加了两个卷积层分支，如图5所示。第一个进行二元分类，预测成为车辆的概率。第二个预测了当前框架上的边界框以及n个n-1框架到未来的边界框。运动预测是可能的，因为我们的方法利用多帧作为输入，从而可以学习估计有用的特征，如速度和加速度。

在训练时，我们使用尺寸为144 80米的空间X-Y区域，其中每个网格单元为0:2 0:2米。在高度维度上，我们从-2米到3.5米，间隔0.2米，导致29个箱子。对于时间信息，我们从过去的5个时间戳中获取所有的3D点。因此，我们的输入是一个由时间、高度、X和y组成的四维张量。对于我们的早期融合和后期融合模型，我们都使用亚当优化器[13]从零开始训练，学习率为1e-4。模型在批量大小为12的4 Titan XP GPU服务器上训练。我们对模型进行100K迭代训练，60K和80K迭代学习率分别减半。

星禾说

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文献阅读日常——uber 3D detection -Fast and Furious: Real Time End-to-End 3D Detection

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and MotionForecasting with a Single Convolutional Nethttps://arxiv.org/abs/2012.12395v1文章目的：利用三维传感器捕捉的时空信息进行三维检测、跟踪和运动预测。作者认为这很重要，因为跟踪和预测可以帮助目标检测。①在处理遮挡或遥远的对象时，利用跟踪和预测信息可以减少检测误报。②随着时间的推移，证
复制链接

扫一扫

专栏目录